ViLD

首页 > TAG信息列表 > ViLD

（开集检测系列）OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION

不引入caption数据，使用coco数据集，使用CLIP 作为teacher模型蒸馏出Mask RCNN模型的检测能力（主要是训练出Mask RCNN能提取出类无关的box和该box的特征能和CLIP text embedding能很好的match），novel类检测能力通过伪novel类的框+推理时CLIP text embedding的进行分类引入 1、动机 1、