标签:L% 7D% 推导 概率分布 5Cpartial +% 算法 7B% 反向
原地址:https://zhuanlan.zhihu.com/p/79657669
1. 前向传播
假设 为 的矩阵(其中, 为样本个数(batch size), 为特征维数):
与 的维数为 为 的矩阵,
与 的维数为 为 的矩阵,
与 的维数为 为 的矩阵,
前向算法:
假设输出为 维,则 为大小为 的矩阵,根据MSE或CE准则可以求得 ,对于回归问题与分类问题, 的求解方法如下:
- 对于回归问题,对out直接计算损失,损失函数为MSE。 损失:
- 对于分类问题,out后接softmax进行分类,然后使用CE(cross entropy)计算loss. 一个样本对应的网络的输出 是一个概率分布,而这个样本的标注 一般为 ,也可以看做一个概率分布(硬分布)。cross entropy可以看成是 与 之间的KL距离:
- 假设 ,其中1为第 个元素(索引从0开始),令 .
损失:
KL距离(相对熵):是Kullback-Leibler Divergence的简称,也叫相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布 P(x) 对应的每个事件,若用概率分布 Q(x) 编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用 表示KL距离,计算公式如下: ,当两个概率分布完全相同时,即 P(X)=Q(X) ,其相对熵为0.
2.反向传播
,为了便于详细说明反向传播算法,假设 为 的向量, 为 的向量:
所以,
1) 损失 对 的导数:
即,
2) 损失对偏置b的导数等于将 的每一列加起来:
3) 损失 对 的导数:
即,
4) 损失 对 的导数:
- 为sigmoid时,
- 为tanh时, .
- 为relu时,
3. 梯度更新
对于不同算法 ,梯度更新方式如下:
标签:L%,7D%,推导,概率分布,5Cpartial,+%,算法,7B%,反向
来源: https://www.cnblogs.com/aabbcc/p/14321276.html
本站声明:
1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。