信息熵,交叉熵,相对熵
作者:互联网
参考链接:https://www.zhihu.com/question/22178202/answer/577936758
信息熵:通过度量信息,来描述信息熵。
概率描述的是事件发生的确定性,熵表示的是事件发生的不确定性。
选取抛硬币这一不确定性事件作为度量,信息熵是1bit(两种等概率的可能,用bit来描述)
(1)等可能事件:
通过对不确定性等可能的事件的数量取对数,可以得到信息熵。
例如小明做选择题ABCD,完全不确定该选哪个,这种情况下小明对每个选项的不确定性都是相同的,这里事件数量是4,取对数得到信息熵为2bit.
(2)不等可能事件:
通过不确定事件发生的概率取倒数得到等概率情况的个数,求出每个事件的熵后再乘以对应的发生概率并求和后即可得到信息熵。
例如小明得到一定的信息分析后发现,A选项概率为1/6,B选项概率为1/6,C选项概率为1/3,D选项概率为1/3,此时的求信息熵的公式是:
1/6log(6) +1/6log(6)+1/3log(3)+1/3log(3)
交叉熵:
理解信息熵是交叉熵的一个特例
交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,交叉熵用来衡量两组随机变量之间的相似度,主要用于衡量模型识别值概率与真实值之间的相似度计算公式如下
交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。
参考链接:https://blog.csdn.net/yyoc97/article/details/80102080?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0.no_search_link&spm=1001.2101.3001.4242.1
当我们知道根据系统的真实分布制定最优策略去消除系统的不确定性时,我们所付出的努力是最小的,但并不是每个人都和最强王者一样聪明,我们也许会使用其他的策略(非真实分布)去消除系统的不确定性。当我们使用非最优策略消除系统的不确定性,所需要付出的努力的大小我们该如何去衡量呢。
引入交叉熵,其用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。
**交叉熵越小,这个策略越好。**此时Pk=Qk
相对熵 = 某个策略的交叉熵 - 信息熵(根据系统真实分布计算而得的信息熵,为最优策略)
标签:不确定性,真实,概率,交叉,信息熵,相对,事件 来源: https://blog.csdn.net/weixin_46624670/article/details/121216646