其他分享
首页 > 其他分享> > (开集检测系列)OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION

(开集检测系列)OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION

作者:互联网

不引入caption数据,使用coco数据集,使用CLIP 作为teacher模型蒸馏出Mask RCNN模型的检测能力(主要是训练出Mask RCNN能提取出类无关的box和该box的特征能和CLIP text embedding能很好的match),novel类检测能力通过伪novel类的框+推理时CLIP text embedding的进行分类 引入

1、动机

1、数据集方面,过去已有收集数据方法,包含1203类的LVIS和专门收集稀有数据
2、检测方面,image-text数据的在CLIP上成功使用,其中0-shot的能力关键点在预训练的text encoder,CLIP这种图片级别的0-shot,能否迁移到目标检测,也就是本文要研究的方向

2、方法

RCNN做开集检测的2个重要问题 1、类无关的proposal提取 2、开集的图片分类
ViLD主要有text embedding和image embedding组成

3、效果

COCO上和已存在方法比较

4、消融实验

5、遗留问题

推理速度慢,因为产生的object proposal要一个一个进行分类?为什么不能同时呢?

标签:VIA,开集,CLIP,LANGUAGE,ViLD,text,image,novel,embedding
来源: https://www.cnblogs.com/pyclq/p/16600225.html