self-attention为什么要除以根号d_k
作者:互联网
一、因为softmax的输入很大时,其梯度会变的很小,趋近于0;
二、除以根号Dk的目的就是使得,QK/Dk满足方差稳定到1,使得softmax的梯度不至于太小
参考:
transformer中的attention为什么scaled? - 知乎
注意力机制在softmax时除以一个根号d的作用_samuelzhoudev的博客-CSDN博客
self-attention为什么要除以根号d_k_tyler的博客-CSDN博客
标签:除以,Dk,self,attention,博客,softmax,根号 来源: https://blog.csdn.net/suibianshen2012/article/details/122141294