其他分享
首页 > 其他分享> > 现代自然语言生成:(一) 研究背景

现代自然语言生成:(一) 研究背景

作者:互联网

1、背景概述

自然语言处理 (NLP,natural language processing)
= 自然语言理解(NLU,natural language understanding) +自然语言生成( NLG,natural language generating)。

如何让机器“说出话”从而实现更方便、体验更好的人机交互系统,是NLG的最终目标之一。

2、基本定义与研究范畴

宽泛定义:在特定的交互目标下,从给定输入信息生成人类可读的语言文本的自动化过程。

输入:不同任务输入不同,包含下面四个维度<CG,UM,KB,CH>

输出:一段可读的文本

3、NLG与NLU

NLU 自然语言理解:

NLG 自然语言生成:

4、传统的模块化生成框架

(1)内容规划 (Content Planning)
通常使用树状的层次结构表示,叶节点表示要生成的内容,树状结构组织内容在文本中的顺序

(2)句子规划(Sentence Planning)

从微观角度决定词汇和句法结构,怎么把内容描述出来。句子规划使用树状图实现,内部节点是句子结构,叶子节点表示单词和词语

(3) 文本实现(Text Realization)

一般使用两种框架实现:

5、端到端的自然语言生成框架

6、典型的NLG任务

输入信息的形态

信息转换

开放端语言生成(open-ended LG):输入信息不完整,不足以引导模型得到完善输出语义的任务。具体来说,比如故事生成,仅仅给定开头或者一些片段或者关键字,要求生成具备一定情节的故事。显然模型需要使用外部的信息。这类任务的特点是一对多,同一份输入,可能会出现多份输出。对话生成、长文本生成等都会出现这个问题。

非开放端语言生成 (NOE LG):输入信息在语义上提供了完备甚至更多的信息。比如机翻、GEC等任务,模型的创造性较低,只能生成规定的句子,有明确的评测指标。

7、NLG的可控性

生成模型的可控性是指:模型在给定输入条件下生成不符合预期的文本,这些文本在语法、用词、语义等方面不符合人类语言的规范或者事先给定的约束。

参考文献

《自然语言生成》黄民烈

标签:自然语言,背景,信息,生成,Text,文本,输入
来源: https://www.cnblogs.com/caolanying/p/16607593.html