其他分享
首页 > 其他分享> > CTPN理论学习笔记

CTPN理论学习笔记

作者:互联网

https://zhuanlan.zhihu.com/p/34757009 https://zhuanlan.zhihu.com/p/51383402

 [CRNN]

https://zhuanlan.zhihu.com/p/43534801

介绍

 

 

网络结构

 

 

conv5 feature map

为何使用双向LSTM?

如何通过FC层输出产生图中的Text proposals?

 

如何通过Text proposals确定最终的文本位置,即文本线构造算法?

竖直Anchor定位文字位置

效果

文本线构造算法

细节

文本线构造算法通过如下方式建立每个Anchor

正向寻找:

  1. 沿水平正方向,寻找和 水平距离小于50像素的候选Anchor(每个Anchor宽16像素,也就是最多正向找再反向寻找:

     

    1. 沿水平负方向,寻找和 水平距离小于50的候选Anchor
    2. 从候选Anchor中,挑出与 竖直方向 的Anchor
    3. 挑出符合条件2中Softmax score最大的

    最后对比 :

    1. 如果 ,则这是一个最长连接,那么设置
    2. 如果 ,说明这不是一个最长的连接(即该连接肯定包含在另外一个更长的连接中)。

    举例说明

    Anchor已经按照 顺序排列好,并具有图中的Softmax score(这里的score是随便给出的,只用于说明文本线构造算法):

    1. ,向前寻找50像素,满足 且score最大的是 ,即 反向寻找,满足 且score最大的是 ,即 。由于 是最长连接,那么设置
    2. 正向寻找得到 反向寻找得到 ,但是 ,即 不是最长连接,包含在 中。
  2. ,所以Anchor index 0->3->7组成一个文本,即蓝色文本区域。
  3. ,所以Anchor index 6->10->12组成另外一个文本,即红色文本区域。

这样就通过Text proposals确定了文本检测框。

损失函数

  1. Anchor Softmax loss:该Loss用于监督学习每个Anchor中是否包含文本 表示是否是Groud truth。
  2. Anchor y coord regression loss:该Loss用于监督学习每个包含样本的Anchor的Bouding box regression y方向offset,类似于Smooth L1 loss。其中 中判定为有文本的Anchor,或者与Groud truth vertical IoU>0.5。
  3. Anchor x coord regression loss:该Loss用于监督学习每个包含文本的Anchor的Bouding box regression x方向offset,与y方向同理。前两个Loss存在的必要性很明确,但这个Loss有何作用作者没有解释(从训练和测试的实际效果看,作用不大)

标签:笔记,regression,学习,算法,LSTM,文本,Anchor,CTPN
来源: https://www.cnblogs.com/starc/p/16080003.html