首页 > 其他分享> > 《ASTER: An Attentional Scene Text Recognizer with Flexible Rectification》论文阅读笔记

《ASTER: An Attentional Scene Text Recognizer with Flexible Rectification》论文阅读笔记

2021-07-19 18:58:44 作者：互联网

ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

重点在于实验部分，看看人家围绕创新点都是怎么样做实验的。

文章目录

ASTER: An Attentional Scene Text Recognizer with Flexible Rectification
Abstract
1. Introduction
2. RELATED WORK
3. Model
- 3.2 识别网络
4 Experiments
5 END-TO-END RECOGNITION
6 Conclustion
参考

Abstract

目的： 处理扭曲或不规则布局的文本（如自然场景中的透视文本和弯曲文本，很难识别）提出了ASTER模型，一个端到端的神经网络模型，包括一个校正网络和一个识别网络。

校正网络：自适应的将输入图像转换成新图像，校正其中的文本。它由a flexible Thin-Plate Spline transformation 所驱动，在没有去人工注释的情况下去训练各种不规则性的文本。
识别网络： an attentional sequence-to-sequence model，能够直接从校正后的图像中预测字符序列。

通过大量的实验，验证了校正的有效性，并展示了ASTER的SOTA识别性能，并证明ASTER是在端到端的识别模型中一个强大组件。

Q1：怎样通过实验来证明其校正有效性以及识别性能的？

1. Introduction

介绍了使用卷积神经网络(CNN)通过字符识别文本的方法，使用CNN对单词进行分类的方法[24]，[26]，以及使用CNN和递归神经网络的组合来识别字符序列的方法(RNN) [54]。但是没有解决不规则的文本的问题，不规则文本指的是：非水平和正面、具有弯曲布局等的文本。
提出了ASTER，它是具有灵活校正的注意力场景文本识别器，用于场景文本识别。ASTER通过清晰的纠正机制来解决不规则文本问题。
创新点：

通过校正网络来实现文本校正，这个变换是： parameterized Thin-Plate Spline (TPS），一种灵活的变换，可以处理各种文本不规则性。该机制在没有额外注释的情况下显著提高了识别性能。
识别网络通过以an attentional sequence-tosequence 的方式从校正后的图像预测字符序列。并且将传统的单向解码器扩展为双向解码器。双向解码器由两个解码方向相反的解码器组成。它合并了两个解码器的输出，利用了两个方向的依赖性。
提出了一种利用ASTER的文本校正和识别能力来增强文本检测器的方法。

2. RELATED WORK

2.1

在这里插入图片描述

我们的方法属于结构化学习的范畴。它基于注意序列对序列的学习模型[3]，[13]。这种模型学习从输入序列中预测输出序列，最初被提出用于机器翻译和语音识别任务。这篇论文的会议版[55]是第一个，与[36]并行，在场景文本识别任务中探索这样的模型。这项工作进一步扩展了双向解码器[55]。

2.2 文本校正

场景文本通常以单个单词的形式被识别，现在的方法不是很适用，作者的方法在概念上更简单，因为它不需要显式的字符检测。此外，与[64]和[11]相比，我们的方法不需要额外的字符级注释。

2.3 文字检测和端到端识别

TextBoxes应用SSD检测器来对文本进行检测
EAST使用FCN全卷积神经网络对字符进行分割检测
Deep TextSpotter 将基于FCN的检测器和基于CTC的识别器结合成一个端到端的可训练框架。
[63] [27]首先生成文本建议，然后用独立的单词识别模型进行识别。

虽然本文的重点是文本识别，但我们表明ASTER有助于实现最先进的端到端性能，即使没有最强的检测器。此外，我们还证明了ASTER可以通过其整流机制增强探测器。这些特性使ASTER成为端到端识别系统中一个有吸引力的识别器。

3. Model

该模型由文本校正网络和文本识别网络两部分组成。在接下来的章节中，我们首先分别描述第3.1节和第3.2节中的两个部分。然后，我们在第3.3节中描述了培训策略。

3.2 识别网络

只使用图像和它们的基本文本注释进行训练，这个模型的核心是CTC算法。CTC提供了一个对水平字符位置和间距不敏感的可微分损失函数，实现了端到端的可训练序列识别。尽管CTC很有效，但它没有一种机制来模拟其输出字符之间的依赖关系。因此，，[54]依赖于外部语言模型，如词典，将语言优先纳入其识别。我们使用双向解码器扩展的序列到序列模型来解决识别问题。由于序列到序列模型的输出是由RNN生成的，它捕获了字符相关性，因此将语言模型（language modeling）纳入了识别过程。此外，双向解码器捕捉两个方向上的字符相关性，利用更丰富的上下文并提高性能。

4 Experiments

用大量的实验来证明作者模型的每个部分的有效性，并将其性能与其他最先进的方法进行比较在本节中，我们从第4.1节中的实验设置开始。然后，我们在第4.2节和第4.3节中进行了一些消融研究，每个研究都针对一个模型零件，以证明其有效性并分析其行为。最后，在第4.4节中，我们评估了公共数据集上的ASTER，并将其与其他最先进的方法进行了比较。

4.1 实验设置

4.1.1 数据集

该模型在两个合成数据集上进行训练，而不需要在其他数据集上进行微调。该模型在5个标准数据集上进行了测试，以评估其总体识别性能。此外，我们在两个特殊的不规则文本数据集上测试了该模型，以验证其校正能力。按照标准，我们使用不区分大小写的单词准确度来评估识别性能。
Synth90k是[24]中提出的合成文本数据集。该数据集包含900万张由一组90k个常用英语单词生成的图像。文字通过随机变换和效果呈现在自然图像上。Synth90k中的每个图像都用一个基本事实词进行注释。该数据集中的所有图像都是为训练而拍摄的。
SynthText是在[19]中提出的合成文本数据集。生成过程与[24]相似。但与[24]不同的是，SynthText是针对文本检测的。因此，文字被渲染到完整的图像上。我们使用基本单词边界框来裁剪单词。
IIIT5k-word(IIIT5k)[44]包含从网络上收集的3000张测试图像。每个图像都与一个50字的短词典和一个1000字的长词典相关联。词典由基本词汇和其他随机词汇组成。
==‘街景T ext (SVT) ==[60]收集自谷歌街景。该测试集包含647张裁剪单词的图片。SVT中的许多图像被噪声、模糊和低分辨率严重破坏。每个图像都与一个50个单词的词典相关联。
ICDAR 2003 (IC03) [42]包含860张过滤后的裁剪词图像。在[60]之后，我们丢弃包含非字母数字字符或少于三个字符的单词。每个图像都有一个在[60]中定义的50个单词的词典。
ICDAR 2013 (IC13) [32]继承了IC03的大部分图像，并通过新图像对其进行了扩展。通过删除包含非字母数字字符的单词来过滤数据集。数据集包含1015幅图像。没有提供词典。
ICDAR 2015 Incidental Text(IC15)是ICDAR 2015 Robust Reading大赛的挑战4[31]。这项挑战以附带的文本图像为特色，这些图像是由一副谷歌眼镜在没有仔细定位和聚焦的情况下拍摄的。因此，数据集包含大量不规则文本。测试图像是通过使用基本单词边界框裁剪单词获得的。
SVT-Perspective (SVTP) 被提出用于评估识别透视文本的性能。SVTP的图像是从谷歌街景的侧视图像中挑选出来的。其中许多被非正面视角严重扭曲。该数据集由639幅用于测试的裁剪图像组成，每幅图像都有一个从支持向量机数据集继承而来的50个单词的词典。
CUTE80 (CUTE) 数据集侧重于弯曲文本。它包含80幅在自然场景中拍摄的高分辨率图像。CUTE80最初是为探测任务而提出的。我们裁剪注释过的单词，得到一个包含288张图片的测试集。没有提供词典。

4.1.2 文本校正网络

图像在进入校正网络之前被调整到64 × 256。我们使用大的输入尺寸，以便在校正采样之前保留高分辨率。采样器输出大小为32 × 100的图像，这也是识别网络的输入大小。定位网络对下采样到32×64的输入图像起作用。它由6个卷积层组成，核大小为3 × 3。前5层中的每一层后面都有一个2 × 2最大池层。输出滤波器的数量分别为32、64、128、256、256和256。卷积层后面是两个完全连接的层。它们的输出单元数量分别为512个和2K个，其中K为控制点数量。在整个实验过程中，我们将K设置为20。K的其他值导致类似的结果。

4.1.3 文本识别网络

识别网络，使用45层残差网络作为卷积特征提取器。每个残差单元由1 × 1卷积和3 × 3卷积组成，最近的工作[23]表明了这种方案的效率。在前两个残差块中，通过2 × 2步卷积对特征图进行下采样。在第四个和第五个剩余块中，步幅变为2×1。为了区分相邻字符，2 × 1下采样步幅沿水平轴保留了更高的分辨率。

剩余网络之后是两层双向LSTM。每一层由一对具有256个隐藏单元的LSTMs组成。在进入下一层之前，LSTMs的输出被连接并线性投影到256维。

解码器是 attentional LSTMs。注意单位和隐藏单位的数量都是256。解码器可识别94个字符类别，包括数字、大写和小写字母以及32个ASCII标点符号。

当评估不区分大小写且忽略标点符号时，我们将解码器输出标准化为小写，并移除所有预测的标点符号。

在这里插入图片描述

4.1.4 优化器

模型是从头开始训练的。我们采用ADADELTA [69]作为优化器。带有动量的更简单的SGD优化器也将成功地训练模型，但精度稍低。该模型由64个例子分批训练，迭代100万次。每一批都是由32个来自Synth90k的例子和另外32个来自SynthText的例子构成的。以这种方式训练的模型明显优于仅在Synth90k上训练的模型(例如[54]，[55])。学习速率最初设置为1.0，在步骤0.6M和0.8M分别衰减为0.1和0.01。虽然ADADELTA中的学习速率是自适应的，但是我们发现经典的学习速率调度对性能是有益的。

4.1.5 实现细节

我们使用TensorFlow实现了所提出的模型[1]。该型号在一个12GB内存的NVIDIA TITAN Xp显卡上训练。训练速度约为6.5次迭代/秒，用时不到2天即可达到收敛。当测试批量为1时，每幅图像的推理速度为20毫秒。这种速度可以通过更大的批量来提高

4.2 文本校正实验

我们研究文本校正网络的两个方面。首先，我们从定量和定性两个方面研究文本校正的效果。其次，对于定位网络，我们研究了它对权重初始化的敏感性。

4.2.1 校正效果

为了分析校正的效果，我们研究了所提出模型的两个变体。
第一种变型仅由识别网络组成，不执行校正。为了避免其他模型部分的影响，我们还将双向解码器改为单向解码器。
第二种变体是第一种加上校正网络。两种变体都是从头开始训练的，使用第4.1节中描述的相同训练设置。在六个测试数据集上评估了它们的性能，即IIIT5k、SVT、IC03、IC13、SVTP和CUTE。
表2列出了两种变体的结果。可以看出，校正后的模型在所有数据集上都优于未校正的模型，尤其是在SVTP (+4.7%)和CUTE (+3.1%)数据集上。由于这两个数据集都由不规则文本组成，因此校正显示出显著的效果。
在这里插入图片描述
通过构建一系列不规则性水平递增的数据集。（不同的比例混合SVTP+CUTE和IIIT5k来实现的。所有数据集有933个例子。）图9绘制了校正改进(有矩形框和无矩形框的精度差异)对比部分不规则文本。可以看出，校正效果随着不规则程度单调增加，显现出了对不规则文本的校正效果。
在这里插入图片描述
为了进行定性比较，表4显示了来自CUTE80和SVTPerspective的一些示例的校正结果。即使没有对控制点位置的直接监督，校正网络也学会将控制点放置在文本的上下边缘附近。这些点以均匀的间距排列在平滑的曲线上，在校正后的图像中几乎没有失真或伪影。
在这里插入图片描述

4.2.2 对与初始化权重的敏感性

正确的权重初始化是训练校正网络顺利进行的必要条件。如第3.3节所述，我们用零权重和特定值的偏差初始化最后一个完全连接的层。我们将这个初始化方案命名为identity。
为了演示权重初始化的效果，图10将identity与另一个称为random的初始化方案进行了比较，其中所有模型层都是随机初始化的。可以看出，identity导致更快的收敛和更稳定的训练过程。同时，一个随机初始化的模型仍然可以通过更多的训练迭代训练成功，最终达到非常接近identity的精度。我们观察到，一个随机初始化的模型最初会产生垃圾校正的图像，但在几千次训练迭代后会恢复正常。

不同模型初始化方案下的单词准确度(左)和训练损失(右)。

在[55]中，一些精心设计的权重初始化方案是成功训练模型所必需的。随机初始化训练完全失败。相比之下，本文的模型对权重初始化不太敏感。即使随机初始化，也能成功训练。

4.3 文本识别实验

在这一部分，我们研究了文本识别网络的几个关键方面，包括它的注意机制、双向解码器以及识别性能与字长的关系。

4.3.1 注意力分析

注意机制在识别网络中起着核心作用。根据等式5，局部特征被加权组合以识别字符。这表明注意机制执行隐含的字符检测。
在这里插入图片描述
为了理解解码器的行为，我们提取了注意权重，即等式5中的αt，并在图11所示的几个示例中对其进行可视化。在每张图片上，一个注意力权重矩阵在2D图上被可视化。图的第t行对应于第t解码步骤的注意力权重。除了非常短的单词，我们可以观察到注意力权重和字符之间的清晰对齐。这展示了由识别网络执行的隐式字符检测。

4.3.2 双向解码器

为了评估双向解码器的有效性，我们创建了三个模型变量，即L2R，它以从左到右的顺序识别文本；R2L，按照从右到左的顺序识别文本；Bidirectional，双向解码器。这些变体也是使用第4.1节中描述的相同训练设置从头开始训练的。表5比较了它们的识别精度。

在这里插入图片描述
总的来说，L2R和R2L具有相似的精度。L2R在IIIT5k、IC03和SVTP方面表现出色，而R2L在其他方面表现出色。这表明这两种变体可能倾向于不同的数据分布。同时，双向在所有数据集上都优于两种变体，只有一个例外，双向等于更好的变体。特别是在支持向量机上，双向解码器的性能分别优于其他两种变体2.8%和1.6%，验证了双向解码器的有效性。

4.3.3 准确度和字长的关系

识别网络将固定大小的图像作为输入。虽然将图像大小调整到固定大小不可避免地会导致图像失真，但我们认为它对性能的影响很小。主要原因是失真同样影响训练和测试数据。因此，我们的模型被训练来处理拉长和压缩的例子。

识别精度与字长的关系(在IIIT5k上测试)

图12显示了识别精度和字长之间的关系。可以看出，对于长度等于或小于11的单词，识别精度相当均匀。超过这个长度，观察到精度下降。然而，这在一定程度上是因为在全词准确性的衡量下，长词天生更难正确预测。我们也尝试过用比例调整大小加上填充来代替固定大小的调整大小，但是在大多数情况下，它会导致更差的性能。

4.4 与现有的技术比较

最后，我们比较了我们的模型和其他最先进的模型的性能。一些数据集提供用于约束识别输出的词汇。当给定一个词典时，我们只需在编辑距离的度量下用最近的词典词替换预测词。

识别结果比较。“50”、“1k”、“Full”都是词汇。“0”表示没有词典。*本文的会议版本。“90k”和“ST”分别是Synth90k和SynthText数据集。“ST+”表示包括字符级注释。“Private”指私人训练数据。

在这里插入图片描述

5 END-TO-END RECOGNITION

6 Conclustion

针对不规则文本识别问题，提出了一种基于STN框架和TPS变换的显式校正机制。生成的文本识别器称为ASTER，在裁剪文本识别和端到端识别任务上表现出卓越的性能。
此外，由于其校正机制，ASTER在增强文本检测器方面显示出额外的优点，甚至能够对为水平文本设计的检测器进行定向文本检测。在这项工作中，端到端的文本识别是以两阶段的方式进行的，这意味着检测是在另一个网络中使用单独的特征进行的。正如我们所展示的，ASTER执行隐式文本检测。但是这种检测能力仅限于目标文本附近的小范围。将这个范围扩展到整个图像将产生一个单阶段、端到端的识别系统，并且是一个值得进一步研究的方向。

参考

博客1

标签：校正,文本,Text,模型,Rectification,ASTER,解码器,图像,识别
来源： https://blog.csdn.net/prague6695/article/details/118890628