其他分享
首页 > 其他分享> > 《XLNET 论文笔记及理解》

《XLNET 论文笔记及理解》

作者:互联网

 

 

BBR BERT CV CongestionControl Data Mining De-anonymization GAN Graph Embedding Knowledge Graph Embedding Linux Machine Learning NLP Objection Detection Pretraining Model attention commensense detection graph operation system 知识图谱

 

XLNET 论文笔记及理解

 

| 周瑞松の blogTitle: XLNet: Generalized Autoregressive Pretraining for Language Understanding. 1. Introduction1.1 AE && AR 无监督表征学习已经在自然语言处理领域取得了巨大的成功。

Title: XLNet: Generalized Autoregressive Pretraining for Language Understanding.

1. Introduction

1.1 AE && AR

无监督表征学习已经在自然语言处理领域取得了巨大的成功。在这种理念下,很多研究探索了不同的无监督预训练目标,其中,自回归(AR)语言建模和自编码(AE)成为两个最成功的预训练目标。

AR 语言建模旨在利用自回归模型估计文本语料库的概率分布。由于 AR 语言模型仅被训练用于编码单向语境(前向或后向),因而在深度双向语境建模中效果不佳。而下游语言理解任务通常需要双向语境信息。这导致 AR 语言建模无法实现有效预训练。

相反,基于 AE 的预训练模型不会进行明确的密度估计,而是从残缺的输入中重建原始数据。一个著名的例子就是 BERT。给出输入 token 序列,BERT 将一部分 token 替换为特殊符号 [MASK],随后训练模型从残缺版本恢复原始的 token。由于密度估计不是目标的一部分,BERT 允许使用双向语境进行重建。

但是,模型微调时的真实数据缺少 BERT 在预训练期间使用的 [MASK] 等人工符号,这导致预训练和微调之间存在差异。此外,由于输入中预测的 token 是被 mask 的,因此 BERT 无法像自回归语言建模那样使用乘积法则(product rule)对联合概率进行建模。

换言之,给定未 mask 的 token,BERT 假设预测的 token 之间彼此独立,这被过度简化为自然语言中普遍存在的高阶、长期依赖关系。

1.2 generalized autoregressive method

本文结合 AR LM 和 AE LM,在 Transformer-XL 的基础上提出 generalized autoregressive method,XLNet。