其他分享
首页 > 其他分享> > PromptDet: Towards Open-vocabulary Detection using Uncurated Images

PromptDet: Towards Open-vocabulary Detection using Uncurated Images

作者:互联网

使用image-text pair数据+anation数据训练的2阶段检测模型FastRCNN,具有开集检测能力

1、动机

引入image-text pair LAION-400M数据集,训练开集检测模型

2、模型

2阶段检测模型Fast RCNN,分类层换成CLIP模型text encoder生成分类器
针对image-text pair数据集LAION-400M利用方式的问题,区别于OVRCNN,使用self-training方式,为image-text pair 数据生成box伪标签,然后进行训练

2.1 RPL(Region Prompt Learning)

分类使用CLIP的text encoder生成的text encoding, 由于CLIP预训练text encoder对齐的image是场景为中心的,不是目标检测需要对齐的object为中心的,因此使用Prompt方式进行微调

2.2 训练过程

3、效果

LVIS:

COCO:

4、消融实验

4.1、RPL

文本prompt有用,RPL更有用,这里应该是RPL和souring迭代后的RPL,从下面第二个表格看不迭代性能比原来还差

4.2、Proposal选择

proposal框的选择方式,框的置信度最高的选择方式最好

4.3、LAION-novel每张图片生成伪box个数

按照以上置信度选择top20最好

4.3、LAION-novel每类图片个数

结论是每类图片越多越好

4.4、self-training组件是否训练

RPN和bbox head都需要训练

标签:Towards,训练,vocabulary,text,image,Detection,base,LAION,RPL
来源: https://www.cnblogs.com/pyclq/p/16577742.html