Transformer
作者:互联网
seq2seq的模型很多,输入一排向量,输出一排向量,可以使用self-attention,rnn,cnn,而transformer使用的就是self-attention
transformer结构
- residual
- norm (Layer Norm)
标签:transformer,self,attention,Transformer,一排,向量 来源: https://blog.csdn.net/weixin_45046318/article/details/120733290