其他分享
首页 > 其他分享> > self-attention 详解

self-attention 详解

作者:互联网

参考自李宏毅老师的self-atention的课程
pd下载:self-atentionTransformer

理论说明

在NLP中,常用的计算两个向量之间相关性的方法有以下两种:

self-attention中用的就是左侧的类型,将两个向量乘以一个可训练权重,然后将结构进行对应相乘,得到最终的相关性\({\alpha}\)。
基于此,以计算b1(即所有向量对第一个向量的重要信息的抽取结果,b1并不代表最先计算,都是同时进行的)为例进行说明:

矩阵计算

下面用矩阵形式对自注意力的公式进行解读:

与下面的公式相比只是没有除以根号维度而已。

多头的自注意力

标签:self,attention,a1,详解,相关性,b1,向量,softmax
来源: https://www.cnblogs.com/xyzhrrr/p/15584848.html