其他分享
首页 > 其他分享> > 文献阅读_image caption_Knowledge-Based Systems2021_Reasoning like Humans: On Dynamic Attention Prior in

文献阅读_image caption_Knowledge-Based Systems2021_Reasoning like Humans: On Dynamic Attention Prior in

作者:互联网

Reasoning like Humans: On Dynamic Attention Prior in Image Captioning

 

一言以蔽之:引入前一时序的注意力(ADP),引入 整个句子作为输入(LLC),以基本相同的参数和算量,实现CIDER-D提升2.32%

 

Abstract & Conclusion

1. most conventional deep attention models perform attention operations for each block/step independently,which neglects prior knowledge obtained by previous steps.

2. we propose a novel method — DYnamic Attention PRior (DY-APR), which Attention Distribution Prior+Local Linguistic Context→dynamic attention aggregation

 

 

Introduction

以往的注意力模型,多是独立针对block/step的,这导致了两个问题:

1.如果注意力是独立学习的(没有先验),则在全参数空间搜索的结果并不是很精准

2.需要大的数据集(ps:imgae net 沦为小数据集了)

我们发现‘高频共生词有更高的概率出现在同一个句子’(ps:应该是基于...的假设,熊猫和熊出现在一起的概率很高么?)提出了本地语境(语言先验)有助于词汇预测,又因为全局注意力机制易过平滑,我们又引入了基于前时序的先验。

注意力分配先验,ADP:

受仿生启发(逐步从一堆东西中找出感兴趣的而不是直接关注细节),由上层的注意力分布作为下层的归纳偏差(记为上层先验),上层先验和当前层注意力通过门机制一动态融合,门机制二用来平衡门机制一引入的噪音。如图

 

本地语境,LLC:

词嵌入向量由一组定长块组成(e.g. 512维向量=16组32维向量),第一个#C 块作为本地语境,由前一时序获得,记为 shift-through-time chunck ,再跟着一个由当前时序词嵌入线性转换获得的块。反向传播的时候带着本地语境一起更新,记为‘‘local–global attention’

 

RW & Preliminaries ,略

Method

ADP:

$A=\frac{QK^T}{\sqrt[2](d_k)}$    注意力分数

$A^l_{agg}=\sigma(\alpha^l)A^l+(1-\sigma(\alpha^l))A^{l-1}_de$     门机制一(融合注意)

其中$\alpha$ 是l层的权重直接由梯度下降更新,$\sigma$是门,使用了sigmoid,$A^l_{agg}$是l层的融合得分

$A^l_{de}=\sigma(\beta^l)A^l_{agg}$    门机制二(滤波)

其中$\beta$类似$\alpha$,$A^l_{de}$为去噪得分,即最终的注意力得分。作者解释门机制一假设上层注意力与当前层注意力一致,而不同层的注意力也可能不一致,即噪音,为此引入门机制二用来滤波

LLC:

在预测t+1时序的时候,传统模型考虑了t时序的token,而这里考虑到了全序列。

first #C chunks ————由t-1时序获得

the following chunks——由t时序获得

最后拼接二者作为输入

因为共用了线性映射的参数,所以整个过程是没有参数开销的。(ps:唉,小老板,这钵怎么说)

t时序l层输入I时,公式如

$l_t=Concat(O_{t-1}W^c,O_tW^e)$

其中I输入,O输出,W权重,角标为背景/嵌入

训练逐步的从纯静态词转为全动态词。

 

Training objectives

懒得打公式了

 

 

Experiments

数据集用的COCO,提取这块是ImageNet+Visual Genome

(ps:和VinVL差距还是比较大的)

效果图截了一部分意思下。作者给的评价是解决了更多UNK标识,而且更流畅

消融实验:

ADP:

 

LLC:

这个图的意思是说用了LLC之后,注意力的分布更集中,而且峰值变得更高了。

FLOPs and parameters:

Visualization:

Human evaluation:肯定变好了呗

Limitation:co-occurrence带来的数据偏差。

 

 

 

 

 

 

 

标签:Captioning,Based,Knowledge,attention,时序,先验,LLC,机制,注意力
来源: https://www.cnblogs.com/Nonmy/p/15346925.html