首页 > 其他分享> > 0917 文献略读

0917 文献略读

2021-09-17 10:02:31 作者：互联网

Read Data: 0917

Publication: CVPR 2021

Title: SelfDoc: Self-Supervised Document Representation Learning

Aim:

由于文档是多模态的，并用于顺序读取，因此我们的框架利用文档中每个语义上有意义的元素的位置、文本和视觉信息，并为每个内容块之间的上下文化建模。

Research Question:

1、防止过度上下文化的过度细粒度

2、如何充分利用来自未标记文档的多模式信息

Method:

我们提出了SelfDoc，一个任务无关的文档图像理解预训练框架。与现有的文档预训练模型不同，我们的模型是粗粒度的，而不是将单个单词作为输入，因此避免了过度上下文化的过度细粒度。除此之外，我们在模型前训练阶段引入了跨模式学习，以充分利用来自未标记文档的多模式信息。对于后续应用，我们提出了一种新的模态-自适应注意机制，通过自适应强调语言和视觉信号来进行多模态特征融合。

Results:

我们的框架得益于对文档的自我监督预训练，无需通过特征掩蔽训练策略进行注释。与之前的工作相比，它在训练前阶段使用的文档图像更少，在多个下游任务上取得了卓越的性能

Discussion:

Conclusion:

我们提出了一个任务无关的框架，用于文档图像的表示学习和预训练。我们的框架是在语义组件级别(而不是单词)定义的，充分考虑了文档数据的呈现属性，并包括语言、视觉和结构布局信息。我们在序列建议的基础上采用情境化学习，并通过提出的跨模态编码器鼓励跨语言和视觉的跨模态学习。我们使用模态自适应注意强调语言和视觉的特征，进行多模态融合。在训练前的数据少得多的情况下，我们在多个任务上取得了出色的表现。

Further:

Ref:

以语义组件为输入的粗粒度模型，文档中加入图像跨模态学习。

属于共同学习-融合。无代码

标签：模态,框架,训练,0917,文档,略读,视觉,文献,我们
来源： https://www.cnblogs.com/xmy-0904-lfx/p/15303381.html