首页 > TAG信息列表 > kMaX

ECCV 2022 | k-means Mask Transformer

前言 目前,大多数现有的基于transformer的视觉模型只是借用了自然语言处理的思想,忽略了语言和图像之间的关键差异,特别是空间扁平像素特征的巨大序列长度。这阻碍了在像素特征和对象查询之间交叉注意的学习。在本文中,作者重新思考像素和对象查询之间的关系,并提出将交叉注意学习重新