首页 > 其他分享> > 使用Pytorch手写ViT — VisionTransformer

使用Pytorch手写ViT — VisionTransformer

2022-08-22 10:30:56 作者：互联网

《The Attention is all you need》的论文彻底改变了自然语言处理的世界，基于Transformer的架构成为自然语言处理任务的的标准。

尽管基于卷积的架构在图像分类任务中仍然是最先进的技术，但论文《An image is worth 16x16 words: transformer for image recognition at scale》表明，计算机视觉中CNNs的依赖也不是必要的，直接对图像进行分块，然后使用序纯transformer可以很好地完成图像分类任务。

在ViT中，图像被分割成小块，并将这些小块的线性嵌入序列作为Transformer的输入。对图像进行补丁处理方式与NLP应用程序中的标记(单词)相同。

由于缺乏 CNN 固有的归纳偏差（如局部性），Transformers 在数据量不足的情况下不能很好地泛化。但是当在大型数据集上进行训练时，它在多个图像识别基准上确实达到或超过了最先进的水平。在深入本文之前，如果你从未听说过 Transformer 架构，我强烈建议你查看 The Illustrated Transformer。

在开始实现之前，我们先看看ViT架构

可以看到输入图像被分解成 16x16 的扁平化块，然后使用普通的全连接层对这些块进行嵌入操作，并在它们前面包含特殊的 cls token 和位置嵌入。

线性投影的张量被传递给标准的 Transformer 编码器，最后传递给 MLP 头，用于分类目的。

完整文章：

https://avoid.overfit.cn/post/da052c915f4b4309b5e6b139a69394c1

标签：Transformer,嵌入,架构,transformer,VisionTransformer,Pytorch,ViT,图像
来源： https://www.cnblogs.com/deephub/p/16611968.html