其他分享
首页 > 其他分享> > 【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型

作者:互联网

 论文题目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA

 论文链接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606

 

一、任务概述

  1.  视觉问答任务(VQA):将图像和关于图像的自然语言问题作为输入,并生成自然语言答案作为输出。
  2.  文本视觉问答任务(TextVQA):面向文字识别的问答任务。

 二、Baseline

  2.1 Baseline 1: Look, Read, Reason & Answer (LoRRA):

 

  2.2 Baseline 2:M4C

三、Motivation

  1. OCR的错误识别会较大程度影响多模态信息之间的交互(即fA的过程)
  2. 因为在表征空间中需要copy OCR识别的token,OCR的错误会较严重的影响解码器的性能(哪怕另两个分支完全准确也没法正确的输出)

四、Method

   4.1 Contribution

  1. 增强特征表示的鲁棒性:减小OCR错误和物体识别错误对推理的影响
  2. 增强解码器的鲁棒性:在答案预测模块提出一个上下文感知的答案修正模块(CRM)对“复制”的答案词进行校正。

   4.2 Architectural Details—— 视觉增强的文字表征模块 TVS (OCR增强)

  1. method
    • 文字图像矫正模块
    • 编码模块:45层ResNet+ 2层Bi-LSTM
    • 解码模块:单层 注意力机制的GRU
    • 中间语义模块:根据文字视觉信息预测语义信息
  2. train:利用外部数据集训练(SynthText + Synth90K)
  3. loss: OCR识别损失+语义损失
    • 语义损失由真实和预测的语义特征向量间的余弦距离计算得到
  4. 优势
    • 通过语义损失的监督,编码模块能产生与文字解码更相关的视觉特征
    • TVS为直接由文字图像的视觉特性获得语义表示提供可能。
  1. 整网中推理,OCR token details(n个文本框):

  4.3 Architectural Details—— 语义导向的物体表征 SEO-FRCN(Visual增强)

 

  4.3 Architectural Details——上下文感知的答案修正 CRM (解码结果增强)

 五、Experiment

 

 六、结论 

  1. 将OCR融入TextVQA的前向处理流程,构建了一个鲁棒且准确的TextVQA模型

参考博客

[1] https://zhuanlan.zhihu.com/p/250951251 [2] https://mp.weixin.qq.com/s/s7EP8ZiB_0UAv0M4VDhNGA

 

 

标签:TextVQA,VQA,embedding,特征,物体,语义,模块,OCR
来源: https://www.cnblogs.com/hithongming/p/15605807.html