当猪在天上飞:自然与合成场景中的情景推理(Contextual Reasoning)
作者:互联网
当猪在天上飞:自然与合成场景中的情景推理
标题:When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
作者:Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire Tseng, and Gabriel Kreiman
主要机构:ETH Zürich, Harvard Medical School, Harvard University
来源:arXiv:202104
一、摘要
首先,进行心理物理实验,为脱离情景(上下文)的识别建立一个人类基准,然后将其与最先进的计算机视觉模型进行比较,以量化两者之间的差距。最后提出一个情景感知的识别转换模型,通过多头注意融合(multi-head attention in transformer decoders)目标和上下文信息。
二、主要贡献
方法:
利用3D仿真引擎Unity生成图像,在虚拟家庭环境中操作3D对象,研究对象的情景识别影响。
提出:
-
OCD(out-of-context dataset)数据集,控制重力、对象共现(object
co-occurrences)和相对大小。 -
进行心理学实验,建立人类基准,量化人类和计算机视觉之间的差距。
-
上下文感知的对象识别体系CRTNet(Context-aware Recognition Transformer Network)。结合对象和情景信息在上下文中推理,也能推广到情景外的图像。
三、引言介绍
神经网络不仅学习对象的外观和标签之间的共现统计,还学习对象的情景和标签之间的共现统计。
相关方法
- 脱离上下文的物体识别:当对象被放置在不一致的上下文中时,这些算法通常会失败,如ImageNet。据我们所知,目前还没有像本文中所做的那样,以定量控制、系统化的方式探索物体环境的各个方面(如重力)。
- 3D模拟引擎和计算机视觉:允许容易地合成尽可能多的图片,并且违反现实世界的上下文规则。此外,能够精确地控制上下文参数,以便能够以系统和可量化的方式一次改变一个。
- 上下文感知对象识别模型:条件随机场、基于图形的方法,Conditional Random Field (CRF) and
graph-based methods
OCD数据集
主要通过在仿真引擎中修改 (1)重力(2)对象共现(3)相对大小,产生与实际“不符”的数据集。以一个马克杯(mug)为例:
- 图b为目标物处于正常场景下;
- 图c为通过改变重力令杯子“起飞”;
- 图d为对象共现,即杯子应该出现在桌子上而不是椅子上;
- 图f为大小的改变;
- 图g为单纯目标物的图像。
四、CRTNet
该网络架构主要包括三个模块:
- 特征提取
- 情景和目标信息集成
- 置信度机制。
其中,反向虚线表示反向传播过程中的梯度流,交叉表示更停止的位置。t for target,c for context。
- 引入transformer decoder modules,用于集成对象和上下文信息,多头编码器-解码器注意力
- 引入置信度置信度加权机制,灵活选择识别所依赖的信息
- 使用梯度分离来策划训练方法,优先考虑重要的模型组件,确保有效训练
模型中,两个数据流,分别提取背景特征Ic、对象特征It,随后调整到相同的尺寸作为输入,因此目标的分辨率更高。然后通过2D-CNNs进行编码,通过transformer decoder预测标签概率yt,c。将特征映射进行标记,集成到编码器上。此外为提高鲁棒性,进行第二次预测yt,引入置信度p,计算yt,c和yt的加权平均值,获得最终预测yp。
其中特征提取使用在ImageNet上预先训练权重的DenseNet架构,transformer decoder解码器层由编码器-解码器注意力(EDA)和多层感知器(MLP)块的交替层组成。
五、实验
实验方法
其中(a)为文章所提出的OCD数据集,(b/c)分别为Cut-and-paste Dataset 、The UnRel Dataset。
(d)为人类识别能力的实验,依此作为对比基准,招募了400名试验者,进行约6.7万次实验。受试者被呈现一个固定交叉(500毫秒),然后是一个表示目标物体位置的边界框(1000毫秒)。图像显示了200毫秒。图像偏移后,受试者输入一个单词来识别目标物体。正确答案(这里是马克杯)并没有显示在实际的实验中。
实验结果
- 在OCD数据集的实验中:
小物体/大物体共12种条件。得出结论:非正常的背景信息会损害识别能力。在人类基准与CRTNet的结果对比中可以发现,与人类的直觉是相符合的。明显看到脱离背景的单纯目标物的准确率比正常背景下的准确率低,同时大物体的识别准确度会比小物体的高。
与传统的CATNet、Faster R-CNN、DenseNet相比较,效果也十分明显。 - 复制粘贴数据集
与上面有类似的良好效果。 - 正常图像
原文链接:https://arxiv.org/pdf/2104.02215.pdf
标签:情景,识别,对象,OCD,当猪,实验,上下文,Reasoning,Contextual 来源: https://blog.csdn.net/speak_less/article/details/117118032