其他分享
首页 > 其他分享> > 论文阅读:Improvement of End-to-End Offline HMER by Weakly Supervised Learning

论文阅读:Improvement of End-to-End Offline HMER by Weakly Supervised Learning

作者:互联网

一、简介

提出了一种利用深度神经网络识别离线手写数学表达式(HMEs)的改进方法。使用弱监督学习来端到端地训练它。

该网络有三个部分:使用卷积神经网络从输入HME图像编码高级特征;使用GRU的解码器来解析高级特征并生成LaTeX格式的输出表达式;以及一个符号分类器,以提高高级特征的定位和分类。

此外,使用模型集成方法的束搜索过程来平均多个模型的概率。

二、主要方法

1、框架

离线HME识别通常包括符号分割、符号识别、结构分析和上下文分析等模块。这些模块可以使用最新的神经网络和训练过的端到端网络相结合。注意机制被纳入其中来改善校准。然而,注意和分类的联合学习可能会由于对齐错误而导致错误识别。

本文提出了一种利用弱监督学习来改进端到端HME识别器,有助于识别器更好地编码深度学习特征进行训练,并提高HMEs的识别率。该方法使用WAP的归一化模型。

2、弱监督

由于WAP共同学习对齐和分类,它的权重被更新,没有明确的对齐信息和分类,如边界框和相应的标签。不学习对齐会使模型学习错误的分类。因此,改进使该编码器通过弱监督学习来学习更好的特征。

CNN模型将图像编码为高级特征,然后应用全局池化层通过空间维度聚合特征。通过全局池化层,模型可以将局部特征编码为表示输入图像中所有对象的全局向量。

CNN模型使用二元交叉熵损失(BCE)来训练。对于每个类c,都有两种可能性,即在输入图像中是否存在。C的二元交叉熵损失:BCE_c=-(t_clogy_c+(1-t_c)log(1-y_c))

t_c:二进制目标{0,1},其中0表示类c不存在,1表示类c确实存在于图像中

y_c:在图像中存在类c的概率。

与WAP模型一样,编码器将HME图像编码为高级特征,然后将它们与注意机制一起传递给解码器以生成输出。此外,被编码的高级特征也被传递到符号分类层,以预测HME图像中符号的存在。在训练的回退中,弱监督WAP模型计算解码器和分类器输出的梯度传播,然后更新整个模型。相当于,不仅训练解析器,而且训练符号分类器,以帮助编码器学习高级特征。

具体来讲,弱监督WAP从 联合符号级别的BCE损失和表达式级交叉熵损失 中学习,loss_{combined}=loss_{expression}+\alpha loss_{symbol} ,\alpha是符号损失的权重,当他非常小时,意味着我们主要使用表达式级别的损失。实验中这个超参数可以自己指定。

符号分类器由一个线性层转换编码特征的维度的不同符号的数据集,其次是softmax层和全局最大池层生成一个n维二进制向量表示数据集中的不同符号的数量。

三、实验

训练:CROHME2014训练集

测试:CROHME2014和2016的测试集

标签:Weakly,End,训练,符号,特征,模型,学习,Learning,HME
来源: https://blog.csdn.net/handsome_lionet/article/details/117779440