其他分享
首页 > 其他分享> > 神经网络在文章摘要生成中调研

神经网络在文章摘要生成中调研

作者:互联网

前段时间因为需要,进行了神经网络在智能摘要的应用,正好写下来

1. 开放数据

 

1.开放数据

DUC, Daily Mail/CNN, Gigaword, LCSTS(唯一中文微博标题生成语料)[1]

2.智能摘要形式[2-4]

Extract (抽取式,优点:语法无误,缺点:压缩性不高,句子间衔接不够通顺)

Abstract(生成式,优点:通顺,压缩性高;缺点:重复,oov问题)

 

3.评价指标[2-4]

Rouge-1

Rouge-2

Rouge-L

BLEU

4.训练目标构成[2-4,14]

MLE

MRT(一般是Rouge-1)

相应问题惩罚项(重译,copy等)

5.模型发展

本文调研主要是智能标题的生成,headline形式对语义压缩要求较高,一般应该使用Abstract形式,故本文调研主要集中在神经网络在Abstract生成中应用

5.1 神经网络在Extract 形式的发展

a) Extract模型分类算法

SummaRuNNer便是一个典型的文本筛选网络[7]本文将文本摘要重要句子提取问题,变为一个分类问题(二分类),提取的句子为一个类型,不提取的句子为另一个类型。这种监督学习方法,需要标注,作者在此提出了免人工标注的一种近似方法,即根据rouge值得变化,没增加一个句子看rouge是否有变化,有标为提取句子。此处也使用了分层文本分类方法,分别是word层和sentence,两层均为双向rnn形式。达到了一个start of art的分数。

 

 

b) CNN的形式进行文章句子筛选[6] 

    本文使用CNN进行文档筛选的建模,首先使用CNN建立一个无监督学习的CNNLM语言模型,该语言模型使用NCE方法训练,通过该模型的训练可以将句子表示成一个稠密的向量,然后再使用作者的divsect方法进行文本筛选,筛选出的结果,当时状态下最好。

 

 

c)分层抽取的形式, CNN + LSTM综合方法,适用于长文本[5]

文中作者通过cnn对句子进行压缩,变成稠密向量,然后将各个句子送入一个lstm,再利用基于attention的lstm进行每句话的分类,通过训练交叉熵获得参量变化。

 

 

 

 

 

 

5.2 Abstract 形式的发展

该形式的Abstract形式均使用 Seq2Seq框架,但细节上有变化

5.2.1 Encoder的变化

BOW、 CNN、 RNN、分层RNN等

5.2.2 Attention

soft Attention、分层attention、增加抑制重译信息的attention

5.2.3 Decoder

 Feed Forward Neural Language Model、RNN(Beam Search, Greedy  search)

5.2.4 具体问题

n  OOV问题(处理方法:ignore,copy,mapping)

n  重复词问题(coverage)

n  较长文体(引入分层encoder机制)

n  句意压缩问题(引入MRT Rouge作为训练标准)

5.2.5 Abstract模型发展

a)  2015 Rush首先提出使用神经网络进行模型生成[8],该方法达到一个当时start of art的精度。Encoder 使用了,BOW,CNN, Attention 方法, decoder使用了 Feed Forward Neural Language Model

   
   

 

b)  2016 Rush 的学生在Chopra [9]在此基础上 encoder使用CNN进行压缩,并且使用了Attention方法,解码阶段引入了RNN,该模型在Rush的基础上又有了进一步提升。

 

C)  2016年 Nallapati[10] 使用 seq2seq的rnn进行文本摘要生成,使用了分层RNN,RNN分别考虑了词层面和句子层面,并且分层RNN均使用了Attention形式,在Embedding的时候,计入了文本特征,TF ,IDF,命名实体及标注信息等。在考虑OOV问题时,引入了Copy机制。同时本文也制造了一个相关的较大数据集 CNN/Daily Mail

 

 

d)针对OOV问题 哈工大和方舟实验室使用了COPYNET[11]

 

 

e)为解决OOV和重复问题,google的文章引入了 pointer network和 coverage(神经翻译机)来解决上述问题达到较好效果[12]

 

 

f)相对传统RNN 的训练使用的是MLE,因为评价标准是rouge,但训练目标函数却是MLE,存在偏差。因此Ayana使用MRT方法,以rouge-1作为优化手段,较传统的方法有较大提升[13]

 

   

 

5.3 Extract 和Abstract结合的形式[14]

2018 Wan-Ting Hsu使用seq2seq网络分层网络进行重要abstract的筛选,重点考虑召回率,然后再在提取摘要的基础上生成新的通顺的摘要,该方法达到了新的高度。

首先使用预训练的抽取式网络进行abstract的抽取,然后再进行encoder 和decoder的使用生成新的abstract,并且在训练的时候将预训练的网络loss function加在一起进行微调,extract summarization也达到更好的效果。

模型中代价函数考虑了四项:摘要不一致性、coverage、还有extract的loss,以及Pointer-generator network生成模型的MLE 代价项。

 

 
 

 

5.4 和强化学习结合的Abstract结合的形式

作者此处使用policy gradient 的强化学习,因该方法可以适用于离散形式(目前强化在自然语言处理中和policy gradient结合较多,也有其他形式,但进行了离散的近似处理)。

作者基本的模型还是seq2seq模型,加入了注意力机制,并使用了抑制重译的方法(上一步译文中选中的word进行惩罚),并对于生僻字和oov问题使用了copy机制的 pointer network网络。 对于强化学习中目标函数考虑了rouge和maximum likehood结合的形式

 

 

 

 

 

 

5.5 和GAN结合的Abstract结合的形式

Discrimator  是CNN形式,通过文本匹配筛选匹配进行鉴别,相应的目标函数为:

 

Generator 是seq2seq形式的构型,其目标函数包括 policy gradient的loss 和 MLE的loss

 

参数更新使用policy gradient方法进行更新

 

 

标签:形式,RNN,Abstract,摘要,神经网络,使用,CNN,句子,调研
来源: https://www.cnblogs.com/wubu/p/9521753.html