神经网络在文章摘要生成中调研
作者:互联网
前段时间因为需要,进行了神经网络在智能摘要的应用,正好写下来
1. 开放数据
1.开放数据
DUC, Daily Mail/CNN, Gigaword, LCSTS(唯一中文微博标题生成语料)[1]
2.智能摘要形式[2-4]
Extract (抽取式,优点:语法无误,缺点:压缩性不高,句子间衔接不够通顺)
Abstract(生成式,优点:通顺,压缩性高;缺点:重复,oov问题)
3.评价指标[2-4]
Rouge-1
Rouge-2
Rouge-L
BLEU
4.训练目标构成[2-4,14]
MLE
MRT(一般是Rouge-1)
相应问题惩罚项(重译,copy等)
5.模型发展
本文调研主要是智能标题的生成,headline形式对语义压缩要求较高,一般应该使用Abstract形式,故本文调研主要集中在神经网络在Abstract生成中应用
5.1 神经网络在Extract 形式的发展
a) Extract模型分类算法
SummaRuNNer便是一个典型的文本筛选网络[7],本文将文本摘要重要句子提取问题,变为一个分类问题(二分类),提取的句子为一个类型,不提取的句子为另一个类型。这种监督学习方法,需要标注,作者在此提出了免人工标注的一种近似方法,即根据rouge值得变化,没增加一个句子看rouge是否有变化,有标为提取句子。此处也使用了分层文本分类方法,分别是word层和sentence,两层均为双向rnn形式。达到了一个start of art的分数。
b) CNN的形式进行文章句子筛选[6]
本文使用CNN进行文档筛选的建模,首先使用CNN建立一个无监督学习的CNNLM语言模型,该语言模型使用NCE方法训练,通过该模型的训练可以将句子表示成一个稠密的向量,然后再使用作者的divsect方法进行文本筛选,筛选出的结果,当时状态下最好。
c)分层抽取的形式, CNN + LSTM综合方法,适用于长文本。[5]
文中作者通过cnn对句子进行压缩,变成稠密向量,然后将各个句子送入一个lstm,再利用基于attention的lstm进行每句话的分类,通过训练交叉熵获得参量变化。
|
5.2 Abstract 形式的发展
该形式的Abstract形式均使用 Seq2Seq框架,但细节上有变化
5.2.1 Encoder的变化
BOW、 CNN、 RNN、分层RNN等
5.2.2 Attention
soft Attention、分层attention、增加抑制重译信息的attention
5.2.3 Decoder
Feed Forward Neural Language Model、RNN(Beam Search, Greedy search)
5.2.4 具体问题
n OOV问题(处理方法:ignore,copy,mapping)
n 重复词问题(coverage)
n 较长文体(引入分层encoder机制)
n 句意压缩问题(引入MRT Rouge作为训练标准)
5.2.5 Abstract模型发展
a) 2015 Rush首先提出使用神经网络进行模型生成[8],该方法达到一个当时start of art的精度。Encoder 使用了,BOW,CNN, Attention 方法, decoder使用了 Feed Forward Neural Language Model
b) 2016 Rush 的学生在Chopra [9]在此基础上 encoder使用CNN进行压缩,并且使用了Attention方法,解码阶段引入了RNN,该模型在Rush的基础上又有了进一步提升。
C) 2016年 Nallapati[10] 使用 seq2seq的rnn进行文本摘要生成,使用了分层RNN,RNN分别考虑了词层面和句子层面,并且分层RNN均使用了Attention形式,在Embedding的时候,计入了文本特征,TF ,IDF,命名实体及标注信息等。在考虑OOV问题时,引入了Copy机制。同时本文也制造了一个相关的较大数据集 CNN/Daily Mail
d)针对OOV问题 哈工大和方舟实验室使用了COPYNET[11]
e)为解决OOV和重复问题,google的文章引入了 pointer network和 coverage(神经翻译机)来解决上述问题达到较好效果[12]
f)相对传统RNN 的训练使用的是MLE,因为评价标准是rouge,但训练目标函数却是MLE,存在偏差。因此Ayana使用MRT方法,以rouge-1作为优化手段,较传统的方法有较大提升[13]
5.3 Extract 和Abstract结合的形式[14]
2018 Wan-Ting Hsu使用seq2seq网络分层网络进行重要abstract的筛选,重点考虑召回率,然后再在提取摘要的基础上生成新的通顺的摘要,该方法达到了新的高度。
首先使用预训练的抽取式网络进行abstract的抽取,然后再进行encoder 和decoder的使用生成新的abstract,并且在训练的时候将预训练的网络loss function加在一起进行微调,extract summarization也达到更好的效果。
模型中代价函数考虑了四项:摘要不一致性、coverage、还有extract的loss,以及Pointer-generator network生成模型的MLE 代价项。
5.4 和强化学习结合的Abstract结合的形式
作者此处使用policy gradient 的强化学习,因该方法可以适用于离散形式(目前强化在自然语言处理中和policy gradient结合较多,也有其他形式,但进行了离散的近似处理)。
作者基本的模型还是seq2seq模型,加入了注意力机制,并使用了抑制重译的方法(上一步译文中选中的word进行惩罚),并对于生僻字和oov问题使用了copy机制的 pointer network网络。 对于强化学习中目标函数考虑了rouge和maximum likehood结合的形式
5.5 和GAN结合的Abstract结合的形式
Discrimator 是CNN形式,通过文本匹配筛选匹配进行鉴别,相应的目标函数为:
Generator 是seq2seq形式的构型,其目标函数包括 policy gradient的loss 和 MLE的loss
参数更新使用policy gradient方法进行更新
标签:形式,RNN,Abstract,摘要,神经网络,使用,CNN,句子,调研 来源: https://www.cnblogs.com/wubu/p/9521753.html