其他分享
首页 > 其他分享> > 0917 文献略读

0917 文献略读

作者:互联网

 

Read Data: 0917

Publication: CVPR 2021

Title: SelfDoc: Self-Supervised Document Representation Learning

Aim:

由于文档是多模态的,并用于顺序读取,因此我们的框架利用文档中每个语义上有意义的元素的位置、文本和视觉信息,并为每个内容块之间的上下文化建模。

Research Question:

1、防止过度上下文化的过度细粒度

2、如何充分利用来自未标记文档的多模式信息

Method:

我们提出了SelfDoc,一个任务无关的文档图像理解预训练框架。与现有的文档预训练模型不同,我们的模型是粗粒度的,而不是将单个单词作为输入,因此避免了过度上下文化的过度细粒度。除此之外,我们在模型前训练阶段引入了跨模式学习,以充分利用来自未标记文档的多模式信息。对于后续应用,我们提出了一种新的模态-自适应注意机制,通过自适应强调语言和视觉信号来进行多模态特征融合。

Results:

我们的框架得益于对文档的自我监督预训练,无需通过特征掩蔽训练策略进行注释。与之前的工作相比,它在训练前阶段使用的文档图像更少,在多个下游任务上取得了卓越的性能

Discussion:

Conclusion:

我们提出了一个任务无关的框架,用于文档图像的表示学习和预训练。我们的框架是在语义组件级别(而不是单词)定义的,充分考虑了文档数据的呈现属性,并包括语言、视觉和结构布局信息。我们在序列建议的基础上采用情境化学习,并通过提出的跨模态编码器鼓励跨语言和视觉的跨模态学习。我们使用模态自适应注意强调语言和视觉的特征,进行多模态融合。在训练前的数据少得多的情况下,我们在多个任务上取得了出色的表现。

Further:

 

Ref:

以语义组件为输入的粗粒度模型,文档中加入图像跨模态学习

属于共同学习-融合。无代码

 

标签:模态,框架,训练,0917,文档,略读,视觉,文献,我们
来源: https://www.cnblogs.com/xmy-0904-lfx/p/15303381.html