VIT transformer 论文讲解
作者:互联网
首先将图片分为16*16的小格
如果直接将图片作为transformer的输入,会有一个问题,序列长度太大,vit将很多图片打成了16*16的patch ,将一个patch作为一个元素
图片224*224
vit 的全局图
vit = position embedding + class embedding + patch + transformer
也可以用global average pooling 获取全局图片的特征然后分类。但本文用class 输出分类
vit encoder 公式:
标签:embedding,transformer,VIT,16,patch,vit,讲解,图片 来源: https://www.cnblogs.com/lxy0401/p/16196138.html