其他分享
首页 > 其他分享> > 机器学习基础 | 互相关系数和互信息异同探讨

机器学习基础 | 互相关系数和互信息异同探讨

作者:互联网

主要阐述互相关系数和互信息的区别和联系,先说结论:

互相关系数

互相关系数是研究变量之间 线性相关 程度的量,定义公式如下:

\[r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} \]

其中:\(Cov(X,Y)\)为\(X\)与\(Y\)之间的协方差,\(Var[X]\)为\(X\)的方差,\(Var[Y]\)为Y的方差。

互相关系数的基本性质如下:

  1. \(|r(X,Y)|\leq 1\)

  2. 若\(r(X,Y)>0\),则两者之间是正相关;若\(r(X,Y)<0\),则两者之间是负相关

  3. 若\(X\)和\(Y\)不相关,则\(r(X,Y)=0\);反过来,若\(r(X,Y)=0\),则\(X\)和\(Y\)不相关,这里的不相关指的是两者之间不存在线性关系,不能排除其他关系。

  4. 若\(X\)和\(Y\)相互独立,则\(r(X,Y)=0\);反过来,若\(r(X,Y)=0\),只能表明\(X\)和\(Y\)不相关,两者之间并不一定相互独立。

注:

互相关系数的另一种表达式:

\[\lambda(X,Y)=\sqrt{1-\frac{det(C(Z))}{det(C(X))det(C(Y))}} \]

其中:\(Z=(X,Y),C(Z)=E[(Z-E[Z])\cdot(Z-E[Z])^T]\)是高维变量的协方差矩阵,若\(X\)和\(Y\)都是一维向量,则

因此:\(\mathbf{\lambda(X,Y)=|r(x,y)|}\)

互信息

两个变量的互信息的定义如下:

\[I(X,Y)=\int p(x,y)\log\frac{p(x,y)}{p(x)p(y)}dxdy \]

定理: 若\(Z=(X,Y)\)服从高斯分布,则

\[I(X,Y)=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \]

证明: 只须证明如下两点即可:

  1. \(I(X,Y)=H(X)+H(Y)-H(X,Y)\)

  2. 多元正态分布的信息熵:设\(X_1,X_2,...,X_n\)服从均值为\(\mu\),协方差矩阵为\(K\)的果园正态分布,则

    \[H(X_1,X_2,...,X_n)=\frac{1}{2}\log[(2\pi e)^ndet(K)] \]

上述两点的证明按照互信息的定义和正态分布的概率密度函数直接推导即可,这里不再重复,感兴趣的读者可以查阅本文的参考文献。根据上述两点,我们有

\[\begin{aligned} I(X,Y)&=\frac{1}{2}\log[(2\pi e)det(C(X))]+\frac{1}{2}\log[(2\pi e)det(C(Y))]-\frac{1}{2}\log[(2\pi e)^2det(C(Z))]\\ &=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \end{aligned} \]

证毕。

根据上述定理以及\(\lambda(X,Y)\),可以定义一个度量\(\Lambda(X,Y)\):

\[\Lambda(X,Y)=\sqrt{1-e^{2I(X,Y)}} \]

注: \(\Lambda(X,Y)\)具有如下性质:

  1. \(\Lambda(X,Y)\)是互信息的一种归一化,取值范围从\([0,\infty]\)归一化到了\([0,1]\),且\(\Lambda(X,Y)\)同时包含了变量之间的线性关系和非线性关系
  2. 当\((X,Y)\)服从高斯分布时,\(\Lambda(X,Y)=\lambda(X,Y)\),即其此时和互相关系数等价
  3. 若令\(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\),则\(D_{MI}\)刻画了变量之间的非线性关系,可用于指示变量之间是否存在非线性关系,分析系统的非线性动力学变化。

两者的关系

根据上面的分析很容易得到两者的关系如下:

更为重要的是:

参考文献

标签:关系,frac,log,异同,互信息,det,Var,探讨
来源: https://www.cnblogs.com/fangsf/p/15000465.html