其他分享
首页 > 其他分享> > bert 与 ALbert

bert 与 ALbert

作者:互联网

ALbert第一作者解说

一、bert 提升宽度和深度,参数爆炸;

1>、increasing width

保持效率不降的基础上,降低参数量;

1、factorized enbedding parametrization

大矩阵解压成两个小矩阵相乘 ——— 输入变量先降维,后升维,1》自由的把网络变宽;2》

2、cross_layer parameter sharing

层的参数共享,all_shared、shared_attention 

和bert参数对比

弊端:1、slower 3x in model

2>  increasing depth

removing dropout

有效性:参数共享,

self_supervising

 

标签:bert,ALbert,矩阵,参数,shared,increasing
来源: https://www.cnblogs.com/Christbao/p/12337361.html