其他分享
首页 > 其他分享> > 自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning

自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning

作者:互联网

资料放在前面:

文章的贡献如下:

(1)提出了一个基于最大化MI的理论框架来理解词表示学习模型,并将已知的方法统一到这个框架之中,如skip-gram,masked language modeling(如BERT)和permutation language modeling(如XLNET)。并指出BERT和Skip-gram其实在最大化一个相似的目标式,而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。

标签:最大化,Information,Mutual,language,Language,BERT,框架,gram,modeling
来源: https://blog.51cto.com/u_12136715/2952815