其他分享
首页 > 其他分享> > 一周记录(MAE and TransMix)

一周记录(MAE and TransMix)

作者:互联网

过去一年,谷歌提出的VIT成为最火的模型,说明全部由Self-attention组成的模型会超越CNN。但最近学者又在反思,问题的本质是什么?

token mixer 过去一年科研人员做了很多工作,self-attention、spatial mlp、depth conv、fft,以及 pooling 都能取得非常好的性能。所以,目前国内外研究某种程度上也陷入了混战期,大家都在发表论文,但涨点的核心本质原因并不明确。

本周记录两个论文,MAE 和 TransMix。

1、MAE

Masked Autoencoders Are Scalable Vision Learners,何恺明大神最新的工作。

这个论文思想特别简单,就是掩盖住图片中的一部分让模型预测。其实NLP自监督的方法就是遮盖住一部分文字,让模型来预测遮盖住的那部分。但这个思想一直没有用于CV里面来。这个论文还有一个有趣的地方:一个公式都没有。模型越简单,也会越凸显其思路的厉害。现在大多人做科研就是在想着加公式,加步骤,加loss,确实境界不一样 ... ...

论文框架如图所示,Encoder 采取VIT的处理方式,将图像划分为规则的非重叠patch,然后随机采样25%的patch输入到VIT 的特征提取器。对于Decoder,将全部 patch输入其中,这个Decoder只在预训练过程中使用,很轻量(论文中的描述为 narrower and shallower than the Encoder, 只有Encoder 10% 的计算量),这样可以减少预训练时的成本。

论文中比较神奇的一点是下面的实验,当 mask ratio 过多或者过少时,性能都不够好。这是因为,当 mask ratio 过少时,网络倾向于修复图像细节,无法获得图像的高层语义信息。当 mask ratio 过大时,网络就无法捕捉到图像内容了。mask ratio 取60%到75%时,性能较好。在准确率允许的条件下,丢弃更多的patch有助于降低编码器的计算量,因此作者选择 mask ratio = 75%。

2、TransMix

TransMix: Attend to Mix for Vision Transformers, 这是来自Johns Hopkins大学,牛津大学和字节跳动的工作,尽管题目里说是为 transformer设计的,实际可以用于任何网络。

这个工作解决了之前 Mixup 和 CutMix 的一个痛点:并非所有像素是相等的,如上图所示,背景中的像素对于标签的贡献并不大。

这个工作就是基于 VIT 的 attention map 来融合标签,正常VIT有196个 patch,因此可以最后一个 Transformer Block 的中间输出,即得到Attention map \(A\)。整个算法的代码如下图所示,也非常容易理解。

论文实验部分的一个图很好的说明了TransMix的效果。通过比较 attention map,TransMix很好的修正的 label 的比例权重。

标签:ratio,一周,论文,mask,patch,MAE,VIT,TransMix
来源: https://www.cnblogs.com/gaopursuit/p/15617427.html