论文阅读:Improvement of End-to-End Offline HMER by Weakly Supervised Learning
作者:互联网
一、简介
提出了一种利用深度神经网络识别离线手写数学表达式(HMEs)的改进方法。使用弱监督学习来端到端地训练它。
该网络有三个部分:使用卷积神经网络从输入HME图像编码高级特征;使用GRU的解码器来解析高级特征并生成LaTeX格式的输出表达式;以及一个符号分类器,以提高高级特征的定位和分类。
此外,使用模型集成方法的束搜索过程来平均多个模型的概率。
二、主要方法
1、框架
离线HME识别通常包括符号分割、符号识别、结构分析和上下文分析等模块。这些模块可以使用最新的神经网络和训练过的端到端网络相结合。注意机制被纳入其中来改善校准。然而,注意和分类的联合学习可能会由于对齐错误而导致错误识别。
本文提出了一种利用弱监督学习来改进端到端HME识别器,有助于识别器更好地编码深度学习特征进行训练,并提高HMEs的识别率。该方法使用WAP的归一化模型。
2、弱监督
由于WAP共同学习对齐和分类,它的权重被更新,没有明确的对齐信息和分类,如边界框和相应的标签。不学习对齐会使模型学习错误的分类。因此,改进使该编码器通过弱监督学习来学习更好的特征。
CNN模型将图像编码为高级特征,然后应用全局池化层通过空间维度聚合特征。通过全局池化层,模型可以将局部特征编码为表示输入图像中所有对象的全局向量。
CNN模型使用二元交叉熵损失(BCE)来训练。对于每个类c,都有两种可能性,即在输入图像中是否存在。C的二元交叉熵损失:
:二进制目标{0,1},其中0表示类c不存在,1表示类c确实存在于图像中
:在图像中存在类c的概率。
与WAP模型一样,编码器将HME图像编码为高级特征,然后将它们与注意机制一起传递给解码器以生成输出。此外,被编码的高级特征也被传递到符号分类层,以预测HME图像中符号的存在。在训练的回退中,弱监督WAP模型计算解码器和分类器输出的梯度传播,然后更新整个模型。相当于,不仅训练解析器,而且训练符号分类器,以帮助编码器学习高级特征。
具体来讲,弱监督WAP从 联合符号级别的BCE损失和表达式级交叉熵损失 中学习, ,是符号损失的权重,当他非常小时,意味着我们主要使用表达式级别的损失。实验中这个超参数可以自己指定。
符号分类器由一个线性层转换编码特征的维度的不同符号的数据集,其次是softmax层和全局最大池层生成一个n维二进制向量表示数据集中的不同符号的数量。
三、实验
训练:CROHME2014训练集
测试:CROHME2014和2016的测试集
标签:Weakly,End,训练,符号,特征,模型,学习,Learning,HME 来源: https://blog.csdn.net/handsome_lionet/article/details/117779440