Conversational Machine Comprehension: a Literature Review(2020.11)
作者:互联网
机器阅读理解(Machine Reading Comprehension (MRC))的大部分研究都是围绕单回合问答(QA)展开的,而多回合问答技术(Conversational Machine Comprehension(CMC))最近也得到了重视,这要归功于神经语言模型(如BERT)在自然语言理解方面的进步,以及大规模会话数据集(如CoQA和QuAC)的引入。本文综合了CMC模型的一般框架,并强调了近年来不同方法的差异,旨在为未来的研究人员提供CMC模型的概要。
1 Introduction
2 Related Work
3 What is Conversational Machine Comprehension?
问题定义: 给定段落 P、对话历史 、当前问题 Qi,对话历史形式为question answer pairs {Q1, A1, Q2, A2, ..., Qi−1, Ai−1}, 模型预测 answer Ai. The answer Ai可以是a text span (si, ei)或者是 a free-form text {ai,1, ai,2, ..., ai,j} with evidence Ri(Reddy et al., 2019).
4 Multi-Turn Conversational Datasets
CMC研究的激增归功于大规模多轮对话数据集的出现:CoQA (Reddy等,2019年)和QuAC (Choi等,2018年)。
4.1 CoQA
会话QA (CoQA)数据集由来自8k个对话的126k个问题组成
Dataset preparation: 对话是在从7个不同领域收集的段落上准备的,在这7个领域中,两个用于域外评估(仅用于评估),而其他5个用于域内评估(训练和评估)。对话中的提问和回答,都涉及到整个上下文。
• Questions: 问题是虚构的but require sufficient co-referencing and pragmatic reasoning。
• Answers: 答案的形式自由,其相应的理由在文章中被强调出来。然而,Yatskar(2019)发现,答案是理由的轻微修改版本,因此优化 an extractive model 来预测与最佳答案有最大F1 overlap的 answer span,可以达到的最大 F1为97.8.
• Dialog features: 大部分对话都涉及到细节(约占所有问题的60%),但缺乏其他对话功能,如转移话题、澄清或定义。
• Evaluation: 用词重叠的宏观平均F1得分(Macro-average F1 score)作为评价指标,分别对域内和域外进行计算。
4.2 QuAC
上下文问答(QuAC)包含从14K个对话中获得的100K个问题。
•Dataset preparation:对话来自维基百科不同类型的文章。数据集采用非对称设置,学生只能看到文章的标题和摘要,而老师能看到对话所基于的文章的整个部分。因此,学生试图寻找隐藏问题的信息,老师则提供简短摘录来回答(如果回答不了,则用“No Answer”)。
• Questions:问题是描述性的,高度语境性的,开放式的,因为数据集的不对称的本质,阻止了解释。它们需要充分的共参照和实用推理。
•Dialog features:除了深入挖掘(drilling down),对话框切换到新的主题比CoQA更频繁。但数据集缺乏定义或澄清对话框。
•Answers:答案是extractive span,也可以是Yes/No or ‘No Answer’。除了answer,response还包括额外的对话行为比如 continuation (follow up, maybe follow up, or don’t follow up) and affirmation (yes, no, or neither),就像Qu等人(2019b)和Ju等人(2019)所使用的那样,它为培训提供了额外的有用的对话流信息。此外,对表1中的answer token lengths的分析显示,QuAC的答案更长,这可以归因于其不对称的本质,从而激励探索者提出开放式问题(open-ended questions)来衡量隐藏的文本。
•Evaluation:除了整个集合的宏观平均F1(macro-averaged F1)分数外,QuAC还评估Human Equivalence Score(HEQ),通过查找系统F1超过人类F1的实例百分比来判断相对于一个普通人的系统性能。HEQ-Q and HEQ-D are thus HEQ scores with the instances as questions and dialogs respectively.
附录A中提供了每个数据集的一般数据集特征和示例。
5 Generic Framework of a CMC Model
Gao等人(2018)将典型的neural MRC model定义为:(1)将问题和上下文编码embeddings;(2)通过推理来确定答案向量;(3)将答案向量decoding成自然语言输出。Huang et al. (2018a)通过添加会话历史建模,调整了CMC中的这些步骤。Qu等人(2019c)提出了一种具有独立模块的ConvQA模型。独立模块用于历史选择和建模。在这些工作的基础上,我们综合了一个CMC模型的通用框架。
一个典型的CMC模型提供了上下文C、当前问题Qi、会话历史,需要生成一个output set Oi。CMC框架如图1所示。
该框架有四个主要组件:
History Selection module: 动态或静态的选择历史对话回合的子集。如果历史选择模块基于动态学习策略(例如Qu等人(2019b) 论文须看),那么其他模块的反馈可以指导其更新。
Encoder: The lexical tokens of the context passage C, selected conversational turns , and the current question 需要被转化为 input embeddings 再输入推理模块.
高水平的encoding 涉及到与上下文无关的词嵌入的转换和组合,called lexical embeddings such as GloVE (Pennington et al., 2014);intra-sequence contextual embeddings e.g. ELMo (Peters et al., 2018), BERT (Devlin et al., 2019) or RNN, question-aware embeddings, and additional feature embeddings like POS tags (Zhu et al., 2018), history embedding(Qu et al., 2019c) or conversation count. 会话历史通过此模块被整合到contextual input embeddings中,这一过程称为History modeling,是CMC模型最重要的部分。
Contextual Integration layer:在passage、query和history中积累的上下文信息必须被融合以生成query-aware 或者 history-aware contextualized output embeddings. 这个模块的输入通常包含两个(或更多)序列集,或聚集在所有回合,然后融合在每一层,经常交织(Huang et al., 2018b)。
Output Predictor:
6 Common Trends across CMC models
6.1 Trends in History Selection
6.2 Trends in History Modeling
6.3 Trends in Contextual Reasoning
6.4 Trends in Training Methodology
7 Discussion
8 Conclusion
标签:Conversational,F1,Literature,embeddings,Review,CMC,al,对话,et 来源: https://blog.csdn.net/qq_41098987/article/details/118250370