首页 > 其他分享> > ALBERT:精简版的BERT

ALBERT:精简版的BERT

2021-01-24 12:33:54 作者：互联网

1 简介

ALBERT: A LITE BERT，一个精简版的BERT。

本文根据2020年《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》翻译而成。

ALBERT引进了两个参数减少的技术。第一个是因子分解embedding参数。通过将大的单词embedding矩阵分解成两个小的矩阵，我们将隐藏层的size从单词embedding的size分离出来。这种分离使得我们可以轻松增加隐藏层size，而不用明显增加单词embedding的size。第2个技术是跨层得参数共享。

ALBERT引入了sentence-order prediction (SOP)的自监督损失，SOP主要聚焦于内在句子的一致性，改善了BERT中的next sentence prediction (NSP) loss。

2 ALBERT

符合说明：
the vocabulary embedding size as E，
the number of encoder layers as L，
the hidden size as H，
feed-forward/filter size to be 4H，
the number of attention heads to be H/64.

2.1 Factorized embedding parameterization

在BERT，及后继模型XLNET、RoBERTa中，采用WordPiece embedding size E=hidden layer size H。我们发现这个不是最优的。

从模型的视角看，WordPiece embedding是学习上下文独立（context-independent）的，而hidden layer是用来学习上下文依赖（context-dependent ）的。BERT类模型主要是学习上下文依赖（context-dependent ）。所以，我们最好分解开E和H，来对参数进行更加有效的利用，如 H>>E，H远大于E。

从实际出发，vocabulary size V经常很大。如果E=H，那么当我们增加H使，会导致embedding矩阵的规模很大，即V*E。这很容易导致上亿的参数，在训练中存在稀疏。

所以，在ALBERT中，我们因子分解embedding参数，将其分解成两个小的矩阵。代替将one-hot向量直接映射到隐藏空间H，我们首先将它们映射到一个E的低维embedding空间，接着再将其映射到隐藏空间。通过如此分解，我们将参数两从O(VH)减少到O（VE+E*H）。当H>>E时，这种减少时很明显的。