其他分享
首页 > 其他分享> > 当猪在天上飞:自然与合成场景中的情景推理(Contextual Reasoning)

当猪在天上飞:自然与合成场景中的情景推理(Contextual Reasoning)

作者:互联网

当猪在天上飞:自然与合成场景中的情景推理

标题:When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
作者:Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire Tseng, and Gabriel Kreiman
主要机构:ETH Zürich, Harvard Medical School, Harvard University
来源:arXiv:202104

一、摘要

首先,进行心理物理实验,为脱离情景(上下文)的识别建立一个人类基准,然后将其与最先进的计算机视觉模型进行比较,以量化两者之间的差距。最后提出一个情景感知的识别转换模型,通过多头注意融合(multi-head attention in transformer decoders)目标和上下文信息。

二、主要贡献

方法:

利用3D仿真引擎Unity生成图像,在虚拟家庭环境中操作3D对象,研究对象的情景识别影响。

提出:

  1. OCD(out-of-context dataset)数据集,控制重力、对象共现(object
    co-occurrences)和相对大小。

  2. 进行心理学实验,建立人类基准,量化人类和计算机视觉之间的差距。

  3. 上下文感知的对象识别体系CRTNet(Context-aware Recognition Transformer Network)。结合对象和情景信息在上下文中推理,也能推广到情景外的图像。

三、引言介绍

神经网络不仅学习对象的外观和标签之间的共现统计,还学习对象的情景和标签之间的共现统计。

相关方法

OCD数据集

主要通过在仿真引擎中修改 (1)重力(2)对象共现(3)相对大小,产生与实际“不符”的数据集。以一个马克杯(mug)为例:

四、CRTNet

在这里插入图片描述
该网络架构主要包括三个模块:

  • 特征提取
  • 情景和目标信息集成
  • 置信度机制。

其中,反向虚线表示反向传播过程中的梯度流,交叉表示更停止的位置。t for target,c for context。

模型中,两个数据流,分别提取背景特征Ic、对象特征It,随后调整到相同的尺寸作为输入,因此目标的分辨率更高。然后通过2D-CNNs进行编码,通过transformer decoder预测标签概率yt,c。将特征映射进行标记,集成到编码器上。此外为提高鲁棒性,进行第二次预测yt,引入置信度p,计算yt,c和yt的加权平均值,获得最终预测yp。

其中特征提取使用在ImageNet上预先训练权重的DenseNet架构,transformer decoder解码器层由编码器-解码器注意力(EDA)和多层感知器(MLP)块的交替层组成。

五、实验

实验方法

在这里插入图片描述
其中(a)为文章所提出的OCD数据集,(b/c)分别为Cut-and-paste Dataset 、The UnRel Dataset。

(d)为人类识别能力的实验,依此作为对比基准,招募了400名试验者,进行约6.7万次实验。受试者被呈现一个固定交叉(500毫秒),然后是一个表示目标物体位置的边界框(1000毫秒)。图像显示了200毫秒。图像偏移后,受试者输入一个单词来识别目标物体。正确答案(这里是马克杯)并没有显示在实际的实验中。

实验结果

  1. 在OCD数据集的实验中:
    在这里插入图片描述在这里插入图片描述
    小物体/大物体共12种条件。得出结论:非正常的背景信息会损害识别能力。在人类基准与CRTNet的结果对比中可以发现,与人类的直觉是相符合的。明显看到脱离背景的单纯目标物的准确率比正常背景下的准确率低,同时大物体的识别准确度会比小物体的高。
    与传统的CATNet、Faster R-CNN、DenseNet相比较,效果也十分明显。
  2. 复制粘贴数据集
    在这里插入图片描述
    与上面有类似的良好效果。
  3. 正常图像
    在这里插入图片描述

原文链接:https://arxiv.org/pdf/2104.02215.pdf

标签:情景,识别,对象,OCD,当猪,实验,上下文,Reasoning,Contextual
来源: https://blog.csdn.net/speak_less/article/details/117118032