首页 > 其他分享> > RoBERTa与Adv-RoBERTa RoBERTa与Adv-RoBERTa 2021-02-17 13:01:32 作者:互联网 RoBERTa RoBERTa:A Robustly Optimized BERT Pretraining Approach 比起bert的改进 1、训练的时间更长 2、移除了next predict loss(就是没有NSP部分) 3、训练的序列更长 4、动态调整masking机制 bert使用的随机掩码和预测token,bert在实现预处理的时候执行一次掩码,得到一个静态掩码 如dupe_factor=10, epoch=40, 则每种mask的方式在训练中会被使用4次。(将训练数据复制dupe_factor份,对同一条数据,4个mask和10次) RoBERTa在每次输入一个序列时都会生成新的掩码模式 Adv-RoBERTa 还暂时没有公布论文 在 RoBERTa 下游任务中加入了对抗性训练然后集成多模型表现 标签:Adv,bert,RoBERTa,训练,dupe,掩码 来源: https://blog.csdn.net/doyouseeman/article/details/113833178