学习笔记之机器翻译与文本摘要1
作者:互联网
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
生成式模型的应用领域是机器翻译和文本摘要,核心思想使用Seq2Seq的模式解决问题。
一、文本摘要简介
文本摘要的方法分为抽取式、生成式和压缩式。
1、抽取式:
- 传统的抽取式方法有Lead-3(前三个句子)、Page_rank(将句子向量按照类似page_rank的方式设定权重,抽取权重最大的句子)、聚类(将句子向量的质心视作文章中心,抽取距离中心最近的几个句子),不太推荐。
- 比较推荐的方式是给每个句子打标签(1代表抽取),可以使用一个encoder+二分类的模式。
这里使用人工打标比较麻烦,在已知文章摘要的前提下可以使用启发式打标签法。具体来讲就是先对每一个句子和摘要做ROUGE值,选择最大的作为第一个句子,后面开始遍历其他句子,如果使得ROUGE增大,标签为1,否则为0。 - 抽取式缺点在于摘要不够灵活,冗余信息比较多。好处在于比较通顺。
2、生成式:
鉴于抽取式的缺点。一般工业都使用生成式,生成式一般使用Seq2Seq模型。相对应的,生成式也有相应的缺点。
- OOV问题。就是生成的字可能不属于词典中。
- 重复。模型本身的缺陷
- 太灵活不知道说的是啥
- 长文本理解不了。
实际使用要结合抽取式的优点和生成式的优点
二、机器翻译简介
- 早期机器翻译是基于规则的。这样的好处是准确率还不错,但是规则太过繁琐,维护更新都太难。
- 后来是基于统计的。就是对于翻译过来的排列会通过统计出现的概率来决定。统计的方法的缺点是无法看到上下文。
- 基于机器学习模型的。也就是Seq2Seq的Encoder-Decoder的结构。其中RNN等encoder相对于基于统计的n-gram来讲更能关注长距离的信息。
机器翻译和文本摘要最大的不同是前者有两个语料库,后者只有一个。
三、Seq2Seq简介
- 一句话介绍Seq2Seq就是对于序列(可以是图像、文字、语音等等)可以通过编码器编码,再通过解码器解码输出序列(同样可以是图像、文字、语音等等)。
- encoder可以是RNN、LSTM、GRU、Tranformers等等。提升方法核心在于解决长距离关系,使用attention机制或者运用Transformers框架。
- 画一个示意图:
不是特别精确哈。不过大体如此。
四、机器翻译实战
最主要需要注意的是模型训练阶段和模型使用阶段(inferece)的区别:训练阶段的是已知decoder的输出的可以一口气输入、输出。inferece阶段decoder的输入是一步一步学出来的。
总结
本文简单介绍了机器翻译和文本摘要。
标签:抽取,摘要,Seq2Seq,机器翻译,生成式,文本,句子 来源: https://blog.csdn.net/weixin_49528551/article/details/120575801