首页 > 其他分享> > VIT transformer 论文讲解

VIT transformer 论文讲解

2022-04-26 19:33:24 作者：互联网

首先将图片分为16*16的小格

如果直接将图片作为transformer的输入，会有一个问题，序列长度太大，vit将很多图片打成了16*16的patch ，将一个patch作为一个元素

图片224*224

vit 的全局图

vit = position embedding + class embedding + patch + transformer

也可以用global average pooling 获取全局图片的特征然后分类。但本文用class 输出分类

vit encoder 公式：

标签：embedding,transformer,VIT,16,patch,vit,讲解,图片
来源： https://www.cnblogs.com/lxy0401/p/16196138.html