预训练综述 Pre-trained Models for Natural Language Processing: A Survey 阅读笔记
作者:互联网
原文链接:https://arxiv.org/pdf/2003.08271.pdf
此文为邱锡鹏大佬发布在arXiv上的预训练综述,主要写了预训练模型(PTM)的历史,任务分类,PTM的扩展,将PTM转换到下游任务的方式,PTM的资源与应用。
以下为OneNote笔记的copy。
1 导言
- 非神经NLP方法通常严重依赖于离散的手工特征,而神经方法通常使用低维和密集的向量(也称为分布式表示)来隐式表示语言的句法或语义特征。
- 尽管神经模型在NLP任务中取得了成功,但与计算机视觉(CV)领域相比,性能改进可能没有那么显著。主要原因是目前大多数受监督的自然语言处理任务的数据集都相当小(机器翻译除外)。深度神经网络通常具有大量的参数,这使得它们在这些小的训练数据上过于拟合,在实际应用中不能很好地推广。因此,许多自然语言处理任务的早期神经模型相对较浅,通常只有1个∼3个神经层
- 本次调查的贡献可以概括如下:
- 全面综述了面向NLP的PTM,包括背景知识、模型架构、预培训任务、各种扩展、适应方法和应用。
- 新的分类方法:提出了一种面向自然语言处理的PTM分类方法,它从4个不同的角度对现有的PTM进行分类:1)表示类型,2)模型体系结构,3)预训练任务类型,4)特定场景类型的扩展。
- 资源丰富。我们收集了丰富的PTM资源,包括PTM的开源实现、可视化工具、语料库和论文列表。
- 未来的发展方向。讨论和分析了现有PTM的局限性。此外,我们还提出了未来可能的研究方向。
- 调查的其余部分组织如下。
- 第2节概述了PTM的背景、概念和常用符号。
- 第3节简要介绍了临时技术转让的概况,并阐明了临时技术转让的分类。
- 第4节提供了PTM的扩展。
- 第5节讨论了如何将PTM的知识转移到下游任务。
- 第6节给出了关于PTM的相关资源。
- 第7节介绍了跨各种NLP任务的应用程序集合。
- 第8节讨论了当前的挑战,并提出了未来的方向。
- 第9部分对论文进行了总结。
2 背景
2.1 语言表征学习
- 一个好的表示应该表达通用的先验,这些先验不是特定于任务的,但可能对学习机解决人工智能任务有用。在语言方面,一个好的表示应该捕捉隐藏在文本数据中的隐含语言规则和常识知识,如词汇意义、句法结构、语义角色,甚至语用学
- 分布式表示的核心思想是用低维实值向量来描述文本的意义。向量的每个维度都没有对应的意义,而整体代表一个具体的概念。
- 单词嵌入分类