首页 > 其他分享> > 文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

文献阅读_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

2021-09-09 14:02:39 作者：互联网

preface（me）

不堆数据和算力的情况下，大概是要做特定场景的。Traffic scene 相对于与课题贴合，并且有一定数量的文献，从这个角度切入看看有没有说法。

Abstract&Conclusion

step：

a.object detection and segmentation by clustering

b.element-wise image caption

c.position relation detecting

d.using these elements to construct 3D model

批：

帮助点：

1.在经典的image caption中不太强调scene这个概念，在这里scene应该是一个比element高一级比subregion低一级的概念（读后：一个用来辅助分类的三分类的）

2.相较于关注caption的输出质量，在这里caption只作为辅助用来分类scene和描述语义属性（而不是使用描述了的语义属性）。即关注高层信息时适当降低顺位

3.属性这里分了两类（动静），caption负责语义相关的属性，构建了VRD网络负责位置相关的属性

4.作为特定场景的任务，从几个图来看应该是对据类对谓词进行了范围限制（读后：在graph中对节点和边都进行了限制）

Introduction

contribution

1. Transformer backbone+element-wise 注意力机制+对抗学习+强化学习的image-captioning network for road images to describe the semantic attributes

2. A new VRD network to predict the positional relationship

3. A new two-stage 3D traffic-scene-modeling framework (1.静态元素构建三位走廊模型 2.根据caption&位置关系插入动态元素 )

以下为选择性阅读。

Related Work

Caption Generation for Road Images

提了一个图文对齐（AoA）和并行度的问题（LSTM，SeqGAN引入的discriminator）

Visual Relationship Detection for Object Pairs

本文的视觉关系使用的是<主谓宾（主系表）>这样的三元组结构，所以Visual Relationship Detecting（VRD）网络负责1.目标检测和对的定位 2.定义对间关系。

对于交通场景的特殊性，提出了针对的VRD。

CAPTION GENERA TION FROM ROAD IMAGES

整个的交通场景建模为两阶段

第一阶段网络包含imag-captioning network 和 VRD networking，负责：“元素检测，子区域分割”旨在提取包含元素语义、聚类子空间、元素语义属性、元素对位置关系等的场景语义信息。

第二阶段网络旨在基于场景分类结果和描述进行场景重构。

Image Captioning Network

网络包含四部分

(1) feature extraction, YOLOv3+COCO

(2) element detection, ResNet101+ImageNet，定义了三类场景：市区农村高速（单独训练了最后一个FC做上述三个场景的三分类）

(3) caption generation, Transformer

(4) adversarial reward.

损失函数分成了四个，生成器的的最大似然估计的，element-attention的奖励函数，discriminator的奖励函数，

批：FI就时三个词么？

Element Attention 这一块把提取器的one-hot编码的词进行了嵌入，并且拼接了来自Transformer decoder 的第一个掩码解码器的输出的特征Fs。之后送入线性层获得权重，旨在生成‘主场景元素相关’的句子

VISUAL RELATIONSHIP DETECTION

作为交通场景，做了一个特化的位置关系，即只包含前后左右四个方向

Visual Relationship Detection Network

In：pair of bbox，subregion，binary mask of the subregion

整体网络结构如下

网络中的四个模型如下：

Box Module：两个三个FC组成的

Visual module是Resnet101， I：occupied subregion O：visual representation feature（即三分类）

Spatial Module： I：subregion的二值图（占1空0） O：给decision making module 一个消除背景干扰的位置关系

Decision Making Module：图比说话快，最后有个激活函数图里没写。

损失函数是个交叉熵。

TRAFFIC SCENE MODELING

Trafic scene description

节点空间限制为：车人路左墙右墙背景

边空间设置为：前后左右立走驶停泊垂直

Traffic Scene Construction

这个graph看起来比较简单一些，Edge一共分为四种，每种的内容独立不同。

这里将之前提到的subregion给了定义，一种是“多元素子域“关注空间关系，另一类是”单目标子域“。

据此根据DBSCAN (“density-based spatial clustering of applications with noise”)对YOLOv3提取的目标（的bbox）进行聚类，子域先经过聚类再送入VRD网络以避免无意义的位置关系。

图有点大截一部分意思下了。

在后面的没有看，参考性不大。

标签：IEEE2021,场景,Generation,scene,element,caption,subregion,VRD
来源： https://www.cnblogs.com/Nonmy/p/15236603.html