其他分享
首页 > 其他分享> > ALBERT

ALBERT

作者:互联网

ALBERT

ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations

Factorized embedding parameterization

Cross-layer parameter sharing

对NSP进行修改->SOP(Sentence-order prediction)

技巧

像VGG一样,先训练浅层网络,再将浅层网络的参数初始化给深层网络加快收敛

效果

img

参数共享问题

img

共享参数对模型有负面影响,但是能大幅降低参数量,且影响不是很大

SOP效果

img

SOP指标整体上升

额外数据和dropout层的影响

img

当时NLU上的SOTA

img

训练速度并没有多大提升

标签:ALBERT,句子,state,参数,embedding,共享,hidden
来源: https://blog.csdn.net/doyouseeman/article/details/113833196