其他分享
首页 > 其他分享> > self-attention为什么要除以根号d_k

self-attention为什么要除以根号d_k

作者:互联网

一、因为softmax的输入很大时,其梯度会变的很小,趋近于0;

二、除以根号Dk的目的就是使得,QK/Dk满足方差稳定到1,使得softmax的梯度不至于太小 

参考:

transformer中的attention为什么scaled? - 知乎

注意力机制在softmax时除以一个根号d的作用_samuelzhoudev的博客-CSDN博客

self-attention为什么要除以根号d_k_tyler的博客-CSDN博客

标签:除以,Dk,self,attention,博客,softmax,根号
来源: https://blog.csdn.net/suibianshen2012/article/details/122141294