《XLNET 论文笔记及理解》
作者:互联网
BBR BERT CV CongestionControl Data Mining De-anonymization GAN Graph Embedding Knowledge Graph Embedding Linux Machine Learning NLP Objection Detection Pretraining Model attention commensense detection graph operation system 知识图谱
XLNET 论文笔记及理解
| 周瑞松の blogTitle: XLNet: Generalized Autoregressive Pretraining for Language Understanding. 1. Introduction1.1 AE && AR 无监督表征学习已经在自然语言处理领域取得了巨大的成功。
Title: XLNet: Generalized Autoregressive Pretraining for Language Understanding.
1. Introduction
1.1 AE && AR
无监督表征学习已经在自然语言处理领域取得了巨大的成功。在这种理念下,很多研究探索了不同的无监督预训练目标,其中,自回归(AR)语言建模和自编码(AE)成为两个最成功的预训练目标。
AR 语言建模旨在利用自回归模型估计文本语料库的概率分布。由于 AR 语言模型仅被训练用于编码单向语境(前向或后向),因而在深度双向语境建模中效果不佳。而下游语言理解任务通常需要双向语境信息。这导致 AR 语言建模无法实现有效预训练。
相反,基于 AE 的预训练模型不会进行明确的密度估计,而是从残缺的输入中重建原始数据。一个著名的例子就是 BERT。给出输入 token 序列,BERT 将一部分 token 替换为特殊符号 [MASK],随后训练模型从残缺版本恢复原始的 token。由于密度估计不是目标的一部分,BERT 允许使用双向语境进行重建。
但是,模型微调时的真实数据缺少 BERT 在预训练期间使用的 [MASK] 等人工符号,这导致预训练和微调之间存在差异。此外,由于输入中预测的 token 是被 mask 的,因此 BERT 无法像自回归语言建模那样使用乘积法则(product rule)对联合概率进行建模。
换言之,给定未 mask 的 token,BERT 假设预测的 token 之间彼此独立,这被过度简化为自然语言中普遍存在的高阶、长期依赖关系。
1.2 generalized autoregressive method
本文结合 AR LM 和 AE LM,在 Transformer-XL 的基础上提出 generalized autoregressive method,XLNet。
- 所有的分解序列作为一个集合,对所有采样序列,XLNet 按照 AR LM 的计算方式求对数似然期望的极大值。通常,当前 token 的上文包含 left 和 right 的 tokens:比如原始序列为 1-2-3-4,分解序列中采样一个为 2-4-1-3,那么如果当前 token 为 3,XLNet 的方式就可以看到所有的信息【当然这也是理想情况】,而 AR LM 只能看到 1 和 2。
- 引入 Transformer-XL 的 segment recurrence mechanism 和 relative encoding scheme。
- 引入 Masked Two-Stream Self-Attention 解决 PLM 出现的目标预测歧义【the ambiguity in target prediction】问题。举个例子,比如分解序列中采样一个为 2-4-6-1-3-5 的序列,假设要预测位置 [1] 的 token,按照经典的 Transformer 来计算 next-token 的概率分布,位置 [1] 的 token 的概率就是通过 [2,4,6] 位置上的 tokens 来计算。但是如果以这种方式去预测 next-token,这对 [3,5] 的预测就会产生影响,因为如果 [1] 的预测出现错误会把错误传给后面。对后面每一个 token 的预测,需要建立在之前 token 都已知的条件下。因此本文计算了两个 self-attention 计算方式,一个 mask 当前词,attention 值记为
标签:BERT,预测,模型,论文,Mask,笔记,单词,XLNet,XLNET 来源: https://www.cnblogs.com/cx2016/p/13022480.html