4、交叉熵与softmax
作者:互联网
1、交叉熵的来源
一条信息的信息量大小和它的不确定性有很大的关系,一句话如果需要很多外部信息才能确定,我们就称这句话的信息量比较大。比如你听到“云南西双版纳下雪了”,那你需要去看天气预报、问当地人等等查证(因为云南西双版纳从没下过雪)。相反,如果和你说“人一天要吃三顿饭”,那这条信息的信息量就很小,因为这条信息的确定性很高。
将事件x_0的信息量定义如下(其中p(x_0)表示事件x_0发生的概率):
熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。公式如下:
![](https://www.icode9.com/i/l/?n=20&i=blog/646262/202112/646262-20211230162021198-1826854586.png)
KL散度的值越小表示两个分布越接近。
我们将KL散度的公式进行变形,得到:![](https://www.icode9.com/i/l/?n=20&i=blog/646262/202112/646262-20211230162021312-725937554.png)
![](https://www.icode9.com/i/l/?n=20&i=blog/646262/202112/646262-20211230162021116-1685566486.png)
标签:交叉,信息量,散度,KL,0.1,分布,softmax 来源: https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/15749386.html