论文阅读《Paraphrasing Revisited with Neural Machine Translation》
作者:互联网
摘要
从神经网络翻译的角度重新审视双语转述,提出了一种基于神经网络的转述模式。
模型可以表示连续空间中的释义,估计任意长度文本段之间的语义关联度,或者为任何输入源生成候选释义。
跨任务和数据集的实验结果表明,神经解释比传统的基于短语的旋转方法更有效。
相关工作
关于释义的文献非常丰富,其方法因释义的类型(词汇或结构)、所用数据的类型(如单语或平行语料库)、潜在的表征(表面形式或句法树)以及习得方法本身而异。对于这些问题的概述,请感兴趣的读者参考Madnani和Dorr(2010)。本文专注于双语旋转的方法和神经机器翻译方面。还讨论了释义嵌入的相关工作。
Bilingual Pivoting Paraphrase双语转述
Bannard和Callison-Burch(2005)提出了使用双语平行语料库进行释义抽取的方法。他们的方法首先提取一个双语短语表,然后通过旋转外语短语获得英语释义。给定短语的释义使用翻译模型概率P(f | e)和P(e | f)定义的释义概率进行排序,其中f和e分别是外文和英文字符串。出于对句子释义进行建模的愿望,后续工作再次将重点放在双语旋转框架下的句法驱动技术上。扩展包括通过从同步上下文无关语法(Ganitkevitch et al.,2011;Madnani et al.,2007)获得的规则来表示释义,以及使用诸如CCG类别(Callison-Burch,2008)和词性标记(Zhao et al.,2008)等语言注释来标记释义。
相比之下,我们的模型是语法不可知的,释义是在表面上表示的,而不知道任何潜在的语法。我们在不同的粒度、单词、短语或句子级别上捕获释义,而不必显式地创建短语表。
Neural Machine Translation神经机器翻译
利用序列转导神经网络模型进行机器翻译,该方法的核心是由递归神经网络实现的编码器-解码器结构。编码器将源序列读入连续空间表示的列表中,解码器从中生成目标序列。一种注意机制(Bahdanau et al.,2014)用于在解码期间生成焦点区域。
我们使用NMT作为我们释义模型的主干。在最简单的形式中,我们的模型利用了一对一的NMT架构:将源英语句子翻译成k个候选外语句子,然后再翻译成英语。受多向机器翻译的启发,我们还探索了一种使用多种语言而不是单一语言的替代旋转技术,这种机器翻译比单对模型表现出性能优势(Zoph and Knight,2016;Dong et al.,2015;Firat et al.,2016a)。我们的模型继承了NMT的优点,例如内存占用小和概念上易于解码(实现为波束搜索)。除了释义生成之外,我们还通过实验证明了我们的模型学习到的表达在语义相关任务中是有用的。
Paraphrastic Embeddings 释义嵌入
单词嵌入在各种自然语言处理任务中的成功应用进一步推动了释义的使用。Wieting et al.(2015)采用PPDB中包含的释义,并使用类似于Socher et al.(2013)的递归神经网络将其嵌入低维空间。在后续工作中(Wieting等人,2016)在PPDB提供的监督下学习句子嵌入。在我们的方法中,嵌入是作为模型的一部分学习的,并且可用于任何长度的节段,不使用NMT本身以外的其他机器。
PARANET(Paraphrasing model based on Neural Machine Translation)
NMT
在机器翻译的神经编码器-解码器框架(Sutskever et al.,2014;Bahdanau et al.,2014;Lu-ong et al.,2015)中,编码器是一种递归神经网络(RNN),用于将源语句的平均值压缩为向量序列。解码器是一个条件RNN语言模型,逐字生成一个目标句子。
本文使用的翻译模型https://arxiv.org/pdf/1409.0473.pdf
Pivoting
在机器翻译中,当没有从源语言到目标语言的翻译路径时,pivoting常常被用来克服平行数据的不足。pivoting利用了通过中间语言的路径,这一想法至少可以追溯到Kay(1997),他观察到,如果有第三种语言的翻译,从一种语言到另一种语言的翻译中的歧义可能会得到解决,并且在基于传统短语的SMT中取得了成功(Wu和Wang,2007;Utiyama和Isahara,2007)
在释义的情况下,没有路径从英语到英语。相反,可以使用从英语到法语再到英语的途径。换句话说,我们把源句翻译成中间语,然后再把中间语翻译回源语。Pivoting在选择中间语时使用NMT可以确保考虑整个句子。事实上,在翻译时考虑了上下文信息,使得中间句更加准确。它还把更多的重点放在捕捉句子的意义上,这是释义的关键部分。
一种简单的Pivoting方法是一对一的反向翻译。将源英语句子E1翻译成单个法语句子F。然后,将F翻译回英语,给出英语句子E2的概率分布。这种翻译分布相当于释义分布P(E2 | E1,F):P(E2|E1,F) = P(E2|F)
一对一反译提供了一种简单的释义方法,因为现有的NMT系统可以在没有额外训练或更改的情况下使用。然而,有几个缺点;例如,法语句子F必须完全捕捉E1的实际含义,因为给定F,E1和E2在条件上是独立的。由于在不同语言的句子之间很少有明确的一对一映射,有关源代码的信息可能会丢失,从而导致语言中的不准确释义概率。为了避免这种情况,我们建议通过一种或多种外语中的多个句子进行反译。
Multi-Pivoting
PARANET 的 pivots 通过源语句E1的K个最好的翻译F={F1,F2,...,Fk}集来反翻译,这确保源语句E1的多个方面(语义和语法)都被捕捉到。此外,多个中间语提供了产生单一错误翻译的弹性,这将阻止一对一的反向翻译。从多个中心句翻译成一个目标语句需要重新定义解码器。Firat等人(2016b)提出了几种将多个枢轴句合并到NMT解码器中的方法。我们通过纳入权重扩展了他们的后期平均方法。
单独计算:
纳入权重:
K最优翻译时
Multi-lingual Pivoting
多语言时
对句子的概率
标签:Paraphrasing,翻译,NMT,Neural,al,Machine,释义,et,句子 来源: https://blog.csdn.net/qq_36488756/article/details/114805863