首页 > 其他分享> > STR from Two-Dimensional Perspective AAAI2019

STR from Two-Dimensional Perspective AAAI2019

2021-05-02 15:32:57 作者：互联网

文章名：Scene Text Recognition from Two-Dimensional Perspective

motivation

seq-based 对于不规则文本的缺点，CRNN+CTC的算法是基于一维的，存在label和sequence无法对齐的问题。
提出CAFCN和先前的seq-based方法相比，对于文本形状、背景噪声以及一阶段的检测不准确都不敏感。
虽然本文提出的方法需要进行字符级别的标注，但是在合成的syntext数据集中本身就含有字符级别的类别，训练的时候不要仅使用合成的数据集，因此不需要额外的人工标注。

method

CAFCN的整个网络结构由两部分组成(Character Attention FCN 和 word formation module)。Character Attention FCN(CA-FCN)做像素级的分类，word formation module将像素级的预测整合输出最终的字符序列。结构图如下图所示：
在这里插入图片描述

backbone：采用VGG16的网络结构，只保留卷积层。
character attention module：第二-五层卷积层的feature map输出，通过卷积输出对应二值图(前景和背景)，作为attention map。接着，通过
F o = F i ⊗ ( 1 + A ) F_o = F_i ⊗ (1+A) Fo=Fi⊗(1+A)
实现attention 操作。注意，需要对每层的attention map进行监督，loss为：
L a s = − 4 H s × W s ∑ i = 1 H s / 2 ∑ j = 1 W s / 2 ( ∑ c = 0 1 ( Y i , j = = c ) l o g ( e X i , j , c ∑ k = 0 1 e X i , j , k ) ) L^s_a = -\frac{4}{H_s \times W_s}\sum_{i=1}^{H_s/2}\sum_{j=1}^{W_s/2}(\sum_{c=0}^{1}(Y_{i,j}==c)log(\frac{e^{X_{i,j,c}}}{\sum_{k=0}^{1}e^{X_{i,j,k}}})) Las=−Hs×Ws4i=1∑Hs/2j=1∑Ws/2(c=0∑1(Yi,j==c)log(∑k=01eXi,j,keXi,j,c))
Deformable Convolution:为字符预测提供更加灵活多变的receptive field
word formation moudle：该模块是将大小为 H / 2 × W / 2 × C H/2\times W/2\times C H/2×W/2×C的输出feature map进行后处理，输出单词序列。过程如下：

1、预测得到的feature map进行二值化。
2、在二值化图中，计算每个区域的类别平均值，平均值最大的作为该区域的类别。
3、从左到右进行排序。

标签：map,sum,attention,Two,module,times,Dimensional,AAAI2019,formation
来源： https://blog.csdn.net/weixin_43689247/article/details/116353630