其他分享
首页 > 其他分享> > Why transformer?(三)

Why transformer?(三)

作者:互联网

在这一部分我们就要弄明白“encoder和decoder之间是怎么传递讯息的”了,如果你仔细观察下图红方块那一块的话(也就是我们在 Why transformer(二)中遮起来的那一块),那我们就把这一块叫做Cross attention,它是连接encoder和decoder之间的桥梁。

三、Cross attention 

上图红色框中你会发现,有两个输入来自于encoder(图中蓝色圆圈),另外一个输入才来自decoder。那这个模组实际上是怎么运作的呢?假设我们现在输入一排向量给encoder,encoder输出一排向量a1,a2,a3后呢乘上一个矩阵产生k^{1},k^{2},k^3;接下来轮到你的decoder,decoder会先吃进去一个特殊字符“beginning”,经过Masked self-attention以后,得到一个向量,把这个向量乘上一个矩阵做transform,得到一个query,记作q。紧接着把q与k^{1},k^2,k^3 做dot-product,计算得到attention的分数\alpha _{1}^{'},\alpha _{2}^{'},\alpha _{3}^{'},这里加上一撇代表说你可能做过normalization后得到的结果。接下来再把\alpha _{1}^{'},\alpha _{2}^{'},\alpha _{3}^{'}分别乘上v^1,v^2,v^3后加起来,得到v。那这个v啊,就会被丢到FC中做处理。综上所述,q来自decoder,k跟v来自encoder,这个步骤就叫做Cross attention。

更一般的,现在假设产生一个中文字“机”,那接下来的操作也是跟上面一摸一样的。decoder输入“beginning”输入“机”产生一个向量,这个向量同样乘上一个矩阵做transform,得到一个query记作q^{'}。这个q^{'}同样跟k^{1},k^{2},k^3去计算attention score得到\alpha _{1}^{'},\alpha _{2}^{'},\alpha _{3}^{'};之后再分别乘上v^1,v^2,v^3后加起来,得到v^{'},直接交给FC做处理。所以这就是Cross attention运作的过程

那写到现在,transformer简单的东西就已经全部表述完成了,关于代码的解析呢,目前还在酝酿当中 。再怎么说过年还是要玩两手牌的,所以就写到这里。

标签:得到,transformer,attention,Cross,encoder,decoder,Why,向量
来源: https://blog.csdn.net/m0_57541899/article/details/122761220