其他分享
首页 > 其他分享> > VIT transformer 论文讲解

VIT transformer 论文讲解

作者:互联网

首先将图片分为16*16的小格

 

如果直接将图片作为transformer的输入,会有一个问题,序列长度太大,vit将很多图片打成了16*16的patch ,将一个patch作为一个元素

图片224*224

 

vit 的全局图

 vit = position embedding + class embedding + patch + transformer 

也可以用global average pooling 获取全局图片的特征然后分类。但本文用class 输出分类

vit encoder 公式:

 

标签:embedding,transformer,VIT,16,patch,vit,讲解,图片
来源: https://www.cnblogs.com/lxy0401/p/16196138.html