首页 > 其他分享> > 熵 Entropy 笔记

熵 Entropy 笔记

2019-06-26 14:48:20 作者：互联网

熵 Entropy

一个完全可以预测的确定性实验（deterministic experiment），比如抛硬币P(H)=1，熵为零。一个完全随机的实验，比如掷骰子，是最不可预测的，具有最大的不确定性，在这样的实验中具有最高的熵。

$H(x)=-\Sigma_{i=1}^np(x_i)\log_2p(x_i)$ H(x)=−Σi=1np(xi)log2p(xi)

log如果以2为底数的话，信息熵的单位就是比特 bit，以e为底数的话，信息熵的单位就是 nat，以10为底数的话，单位就是 hat。

也叫信息熵（Information Entropy）或香农熵（Shannon Entropy）。

最大熵原理 Principle of Maximum Entropy

用于决策树，以求解包含约束条件的函数极值方式实现。

最大熵原理的本质：系统中事件发生的概率满足一切已知约束条件，不对任何未知信息做假设，也就是对于未知的，当作等概率处理。

交叉熵 Cross-entropy

交叉熵是用来比较两个概率分布的。它会告诉我们两个分布的相似程度。

$H(P,Q)=-\Sigma_{x}p(x)\log{q(x)}$ H(P,Q)=−Σxp(x)logq(x)

常用损失函数之一。

互信息 Mutual Information

互信息是两个概率分布或随机变量之间相互依赖的度量。它告诉我们一个变量的多少信息量是被另一个变量携带的。

互信息捕捉随机变量之间的依赖关系，并且比普通相关系数更具有泛化性，而普通相关系数仅捕获线性关系。

两个离散随机变量X和Y的互信息被定义为：

$I(X;Y)=\Sigma_{y\in{Y}}\Sigma_{x\in{X}}\log{\frac{p(x,y)}{p(x)p(y)}}$ I(X;Y)=Σy∈YΣx∈Xlogp(x)p(y)p(x,y)

在贝叶斯网络中，变量之间的关系结构可以使用互信息来确定。

KL散度 Kullback Leibler Divergence

KL散度是寻找两个概率分布之间相似性的另一种方法。它衡量了一个分配与另一个分配之间的差异程度。

假设，我们有一些数据，真实的分布是“P”。

$D_{KL}(P||Q)=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}}$ DKL(P∣∣Q)=Σxp(x)logq(x)p(x)

“P”和“Q”之间的KL散度会告诉我们，当我们尝试用“Q”近似“P”给出的数据时，我们失去了多少信息。

KL散度也称为相对熵。

相对熵和交叉熵的关系：
$\begin{aligned} D_{KL}(P||Q)&=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}}\\ &=\Sigma_x{p(x)\log{p(x)}-\Sigma_xp(x)\log{q(x)}}\\ &=-H(P)+H(P,Q) \end{aligned}$ DKL(P∣∣Q)=Σxp(x)logq(x)p(x)=Σxp(x)logp(x)−Σxp(x)logq(x)=−H(P)+H(P,Q)

此外可见KL散度具有非对称性，即 $D_{KL}(P||Q)\not=D_{KL}(Q||P)$ DKL(P∣∣Q)̸=DKL(Q∣∣P)

JS散度 Jensen-Shannon divergence

KL散度的变形，修正了值域范围和对称性，未见使用。

标签：log,散度,笔记,KL,Entropy,DKL,Sigma,xp
来源： https://blog.csdn.net/Excaliburrr/article/details/93738970