其他分享
首页 > 其他分享> > 学习笔记之机器翻译与文本摘要1

学习笔记之机器翻译与文本摘要1

作者:互联网

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

生成式模型的应用领域是机器翻译和文本摘要,核心思想使用Seq2Seq的模式解决问题。

一、文本摘要简介

文本摘要的方法分为抽取式、生成式和压缩式。

1、抽取式:

  1. 传统的抽取式方法有Lead-3(前三个句子)、Page_rank(将句子向量按照类似page_rank的方式设定权重,抽取权重最大的句子)、聚类(将句子向量的质心视作文章中心,抽取距离中心最近的几个句子),不太推荐。
  2. 比较推荐的方式是给每个句子打标签(1代表抽取),可以使用一个encoder+二分类的模式。
    这里使用人工打标比较麻烦,在已知文章摘要的前提下可以使用启发式打标签法。具体来讲就是先对每一个句子和摘要做ROUGE值,选择最大的作为第一个句子,后面开始遍历其他句子,如果使得ROUGE增大,标签为1,否则为0。
  3. 抽取式缺点在于摘要不够灵活,冗余信息比较多。好处在于比较通顺。

2、生成式:

鉴于抽取式的缺点。一般工业都使用生成式,生成式一般使用Seq2Seq模型。相对应的,生成式也有相应的缺点。

  1. OOV问题。就是生成的字可能不属于词典中。
  2. 重复。模型本身的缺陷
  3. 太灵活不知道说的是啥
  4. 长文本理解不了。

实际使用要结合抽取式的优点和生成式的优点

二、机器翻译简介

  1. 早期机器翻译是基于规则的。这样的好处是准确率还不错,但是规则太过繁琐,维护更新都太难。
  2. 后来是基于统计的。就是对于翻译过来的排列会通过统计出现的概率来决定。统计的方法的缺点是无法看到上下文。
  3. 基于机器学习模型的。也就是Seq2Seq的Encoder-Decoder的结构。其中RNN等encoder相对于基于统计的n-gram来讲更能关注长距离的信息。

机器翻译和文本摘要最大的不同是前者有两个语料库,后者只有一个。

三、Seq2Seq简介

  1. 一句话介绍Seq2Seq就是对于序列(可以是图像、文字、语音等等)可以通过编码器编码,再通过解码器解码输出序列(同样可以是图像、文字、语音等等)。
  2. encoder可以是RNN、LSTM、GRU、Tranformers等等。提升方法核心在于解决长距离关系,使用attention机制或者运用Transformers框架。
  3. 画一个示意图:
h1 h2 context S1 S2 S3 S4 <s> I love you <e>

不是特别精确哈。不过大体如此。

四、机器翻译实战

最主要需要注意的是模型训练阶段和模型使用阶段(inferece)的区别:训练阶段的是已知decoder的输出的可以一口气输入、输出。inferece阶段decoder的输入是一步一步学出来的。

总结

本文简单介绍了机器翻译和文本摘要。

标签:抽取,摘要,Seq2Seq,机器翻译,生成式,文本,句子
来源: https://blog.csdn.net/weixin_49528551/article/details/120575801