首页 > TAG信息列表 > Grounded

GLIP_Grounded Language-Image Pre-training

一句话概括:多模态目标检测 目录1、问题2、介绍和实现2.1 数据统一2.1.1 object detect数据转统一格式,补充prompt2.2.2 grounding数据转统一格式:自动生成box,怎么生成box?2.2 模型结构统一2.2.1 语言感知的融合2.3 loss 统一object detect loss转换3、效果4、分析和结论 1、问题 1、