首页 > 其他分享> > CV学习笔记(二十一)：文本识别(DenseNet)

CV学习笔记(二十一)：文本识别(DenseNet)

2021-02-04 12:56:26 作者：互联网

作者：云时之间
来源：知乎
链接：https://zhuanlan.zhihu.com/p/141141672
编辑：王萌

在上一篇文章中完成了数据集的拼接仿真，最近又做了一些关于数据集的工作，先是标注了一堆数据集，然后又把数据集再增强了一下(包括加一些噪声，滤波等等)，总之就是力图更模拟日常生活的场景，这些日后再谈，这一篇文章我想先说一下在文本检测完成后，使用的识别模型DenseNet,因为最近看了很多的OCR检测项目，大多是使用的是CTPN+DenseNet的结构，既然大家都采用这个结构，说明其中是有一定的奥秘在这(我原本的想法是使用滤波检测+CRNN)。

论文地址：arxiv.org/pdf/1608.0699

在这里我用的DenseNet的源码为：

github.com/xiaomaxiao/k

在这里表示感谢

一：DenseNet的特点结构

在论文的Abstract中，很直接的说出了DenseNet的思考点：

CV学习笔记(二十一)：文本识别(DenseNet)

我们传统的CNN，参数只能一层一层的向下传播，而DenSeNet在保证网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来(简单粗暴)，从而更好地利用特征中的信息，简单讲，就是每一层的输入来自前面所有层的输出。因此也带来了几个特点：

CV学习笔记(二十一)：文本识别(DenseNet)

第一点：减少了梯度消失的问题

(我的理解是：现在CNN的网络越来越深，特征经过每一次层的传递都会有一定的损失，在深层网络，梯度消失是不可避免的，虽然像ResNet可以随机丢一些层来避免这个问题，而DenseNet将可以将最初的特征传递到最后一层，这样就算是以后的层数加深，也没什么关系)

第二点：提高了特征的复用性

第三点：减少了参数的数量，调参的福音

因为采用了特征的跨层传递，一方面提升了特征的传递效率，另一方面可以减少网络层的数量

CV学习笔记(二十一)：文本识别(DenseNet)

上图为整个网络结构，下图为DenseNet结构：
CV学习笔记(二十一)：文本识别(DenseNet)

文章的原理一个公式就带过，可以说非常的简练：

CV学习笔记(二十一)：文本识别(DenseNet)

[x0,x1,…,xl-1]表示将0到l-1层的输出feature map做通道相加，而ResNet的通道数是不变的，这可以看为是两者最重要的区别。

在这个部分，K是Growth rate的channel数量，论文中介绍，

CV学习笔记(二十一)：文本识别(DenseNet)

K取小值=4的时候效果会更好，在文中解释

CV学习笔记(二十一)：文本识别(DenseNet)
因为神经网络从输入到输出趋势就是channel数逐渐增加，feature map逐渐缩小，采用的固定的channel，可以使得特征更加密集，更有用的特征会增多，文中用了”collective knowlodge”这个词组，集体知识，还是很有意思的。但是我自己测试过几个K的值，K越大，占用的显存越大，这是我在CRNN和DenseNet之间犹豫的原因之一。

CV学习笔记(二十一)：文本识别(DenseNet)

二：代码结构

①：卷积层定义

典型的BAC结构，3*3的卷积核，relu激活函数

CV学习笔记(二十一)：文本识别(DenseNet)

②：全连接层

跟论文里写的一样，将每一个Dense层的输出与其输入连起来(concatenate函数)之后作为下一Dense层的输入，来实现密集连接。

CV学习笔记(二十一)：文本识别(DenseNet)

③：过渡层

在上边我们说，神经网络层数越深，通道数量慢慢增加，feature map逐渐变少，我们可以通过pooling让feature map缩小，pooling前后的feature map不一样，如果想要把网络链接起来的话，就需要一个过渡层链接，这也就是为什么论文中分成了几个dense block的原因
CV学习笔记(二十一)：文本识别(DenseNet)

另外DenseNet不断卷积网络，参数增长变化的很多，如果不处理，后期通道数会太多，连接层会对通道数进行缩减

CV学习笔记(二十一)：文本识别(DenseNet)

三：测试

三个数据集（C10，C100，SVHN）上和其他算法的对比结果。ResNet[11]就是kaiming He的论文，对比结果一目了然。DenseNet-BC的网络参数和相同深度的DenseNet相比确实减少了很多！参数减少除了可以节省内存，还能减少过拟合。这里对于SVHN数据集，DenseNet-BC的结果并没有DenseNet(k=24)的效果好，作者认为原因主要是SVHN这个数据集相对简单，更深的模型容易过拟合。在表格的倒数第二个区域的三个不同深度L和k的DenseNet的对比可以看出随着L和k的增加，模型的效果是更好的

CV学习笔记(二十一)：文本识别(DenseNet)
我自己复现了一下，做出来效果还是不错，就是太慢了，需要持续优化~

CV学习笔记(二十一)：文本识别(DenseNet)

四：参考文章

①：https://blog.csdn.net/u014380165/article/details/75142664

②：https://zhuanlan.zhihu.com/p/65707543

标签：map,特征,论文,二十一,feature,网络,DenseNet,CV
来源： https://blog.51cto.com/15047484/2618837