首页 > TAG信息列表 > ViLD
(开集检测系列)OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION
不引入caption数据,使用coco数据集,使用CLIP 作为teacher模型蒸馏出Mask RCNN模型的检测能力(主要是训练出Mask RCNN能提取出类无关的box和该box的特征能和CLIP text embedding能很好的match),novel类检测能力通过伪novel类的框+推理时CLIP text embedding的进行分类 引入 1、动机 1、