其他分享
首页 > 其他分享> > 论文笔记-语境重构

论文笔记-语境重构

作者:互联网

原文出自彼得攀的小站

论文来自于华为和滑铁卢大学
该文章主要针对解决了汉语对话中语境重构的问题,即把代词、零代词等指称短语替换为它们指代的名词,这样可以在没有上下文中的情况,直接对当前对话句子进行处理。

Motivation

语境重构的目标是,从对轮对话历史中恢复历史信息,这样可以消除当前对话对于之前对话历史的依赖->这样当前对话的句子可以有全部且上下文无关的语义信息。

Introduction

文章利用词性标注模型来来解决指代和省略问题

文章的主要贡献:

  1. 将对话语境重构问题定义为一个检测问题和一个排序问题,并提出了其与传统的代词检测和零代词检测等任务的区别,提出了候选项的选择
  2. 分析了神经网络在对话系统中的应用,包括step-step和end-to-end的方法
  3. 提出了对话语境重构任务,并提出了一种构建大量有效数据的方法

coreference resolution(指代还原)被认为是两个任务:

与该任务接近的任务是coreference detection,该任务旨在寻找指代相同实体的名词短语和代词。

论文经过实验发现coreference detection(尤其是zero pronoun detection)是语境重构任务的瓶颈。

Method

语境重构任务可以被分为两个子任务:detection and resolution

Detection是一个序列标注任务,其会去识别需要被恢复的referring experssion,代词会被标记出来,零回指则会以一个符号∅来标记
Resolution是一个ranking的任务,对detection出来的referring expression, 进行排序。排序对象是一个三元组。

上图是一个语境重构的例子:假设一个输入话语为q,它的上下文由c来重构的(c来源于之前的对话)。
在detection任务中,输入q中的的她(代词)和∅(省略的零代词)会被识别出来。

在resolution任务中,会对三元组(c,q,m)(c,q,m)(c,q,m)进行排序,其中m{m1,m2,,mk}m\in\{m_1,m_2,… ,m_k\}m∈{m1​,m2​,…,mk​}是c中被挑选出来作为candidate的名词短语。在推理时,选择得分最高的candidate m作为替代词。这里选用的是Pairwise的排序模型。c和q是为了共同得到referring expression的representation。而例子中,“她”被替换为女朋友,“∅”被替换为短信

Masking Structure:即加入一个masked sentence representation层,即将序列标注的结果作为mask vector, 和sentence representation 相乘,从而得到一个masked sentence representation 。该过程会突出代词/零代词附近的词。

该论文还引入了一种构建数据集的方式:从百度知道和搜狗问问的数据中构建,为了生成可用的数据,作者使用了以下方式

作者构建的数据集叫CAQ.

实验结果

论文在三个数据集中做了实验CONLL2012,OntoNote,CQA数据集
Detection
在CQA数据集上的referring expression detection结果

在CQA数据集上的mention candidate排序结果

Resolution
在CQA数据集上coreference resolution任务的结果

在CONLL2012上, 零代词mention candidate ranking的结果

End-to-end
在OntoNote数据集上,zero pronoun resolution 任务的结果

标签:重构,语境,代词,笔记,detection,任务,referring
来源: https://blog.csdn.net/youngplus/article/details/101169964