其他分享
首页 > 其他分享> > 自然语言处理(二十九):Transformer与BERT常见问题解析

自然语言处理(二十九):Transformer与BERT常见问题解析

作者:互联网

自然语言处理笔记总目录


Transformer介绍

BERT介绍

Transformer结构图:
在这里插入图片描述


一、Transformer结构中的Decoder端具体输入是什么? 在训练阶段和预测阶段一致吗?


二、Transformer中一直强调的self-attention是什么? 为什么能发挥如此大的作用? 计算的时候如果不使用三元组(Q, K, V), 而仅仅使用(Q, V)或者(K, V)或者(V)行不行?

self-attention的机制和原理

在这里插入图片描述

  • 从上图中可以看到,self-attention可以远距离的捕捉到语义层面的特征(its的指代对象是Law)
  • 应用传统的RNN,LSTM,在获取长距离语义特征和结构特征的时候,需要按照序列顺序依次计算,距离越远的联系信息的损耗越大,有效提取和捕获的可能性越小
  • 但是应用self-attention时,计算过程中会直接将句子中任意两个token的联系通过一个计算步骤直接联系起来

三、Transformer为什么需要进行Multi-head Attention? Multi-head Attention的计算过程是什么?

采用Multi-head Attention的原因

Multi-head Attention的计算方式


四、Transformer相比于RNN/LSTM有什么优势? 为什么?

Transformer的并行计算

Transformer的特征抽取能力


五、为什么说Transformer可以代替seq2seq?

seq2seq的两大缺陷

Transformer的改进


六、self-attention公式中的归一化有什么作用? 为什么要添加scaled?


七、Transformer架构的并行化是如何进行的? 具体体现在哪里?


八、BERT模型的优点和缺点?


九、BERT的MLM任务中为什么采用了80%, 10%, 10%的策略?


十、长文本预测任务如果想用BERT来实现, 要如何构造训练样本?


标签:BERT,Transformer,常见问题,attention,step,Block,time,输入
来源: https://blog.csdn.net/weixin_45707277/article/details/123164767