其他分享
首页 > 其他分享> > 统计推断(四) Information Geometry

统计推断(四) Information Geometry

作者:互联网

1. Generalized Bayesian decision

2. Discrete information theory

Theorem: if xytx \leftrightarrow y \leftrightarrow tx↔y↔t is a Markov chain, then
I(x;y)I(x;t) I(x;y) \ge I(x;t) I(x;y)≥I(x;t)
with “=”     \iffxtyx \leftrightarrow t \leftrightarrow yx↔t↔y is a Markov chain

Corollary: deterministic g()g(\cdot)g(⋅), I(x;y)I(x;g(y))I(x;y) \ge I(x;g(y))I(x;y)≥I(x;g(y))

Corollary: t=t(y) is sufficient     I(x;y)=I(x;t)\iff I(x;y)=I(x;t)⟺I(x;y)=I(x;t)

Proof: 应用互信息链式法则

Remark: 证明不等式的时候注意取等号的条件 I(x;yt)=0I(x;y|t)=0I(x;y∣t)=0


Theorem: 若 qx(b)=aXW(ba)px(a),qy(b)=aXW(ba)py(a)q_{\mathrm{x}^{\prime}}(b)=\sum_{a \in \mathcal{X}} W(b | a) p_{\mathrm{x}}(a), \quad q_{\mathrm{y}^{\prime}}(b)=\sum_{a \in \mathcal{X}} W(b | a) p_{\mathrm{y}}(a)qx′​(b)=∑a∈X​W(b∣a)px​(a),qy′​(b)=∑a∈X​W(b∣a)py​(a)
那么对任意 W()W(\cdot|\cdot)W(⋅∣⋅) 有 D(qxqy)D(pxpy)D(q_{x'}||q_{y'}) \le D(p_x||p_y)D(qx′​∣∣qy′​)≤D(px​∣∣py​)

Proof: 待完成 …

Theorem: 对确定性函数 ϕ()\phi(\cdot)ϕ(⋅),w=ϕ(z)\mathsf{w}=\phi(\mathsf{z})w=ϕ(z),有 Jw(x)=Jz(x)J_{\mathsf{w}}(x)=J_{\mathsf{z}}(x)Jw​(x)=Jz​(x)

Proof: 待完成 …

3. Information geometry

4. Information projection

Theorem(Pythagoras’ Theorem): p* 是 q 向非空闭凸集 P\mathcal{P}P 上的投影,那么任意 pPp\in\mathcal{P}p∈P 有
D(pq)D(pp)+D(pq) D(p||q) \ge D(p||p^*) + D(p^*||q) D(p∣∣q)≥D(p∣∣p∗)+D(p∗∣∣q)
Proof: 取 pλ=λp+(1λ)pPp_{\lambda}=\lambda p + (1-\lambda)p^* \in \mathcal{P}pλ​=λp+(1−λ)p∗∈P

由投影定义可知 λD(pλq)λ=00\frac{\partial}{\partial \lambda} D(p_\lambda||q) \Big|_{\lambda=0} \ge 0∂λ∂​D(pλ​∣∣q)∣∣∣​λ=0​≥0

代入化简可得证

Remark: 直观理解就是不可能通过多次中间投影,使整体的KL距离(散度)减小


Corollary: 如果 q 不在 Py\mathcal{P^y}Py 的边界上,那么其在线性分布族 P\mathcal{P}P 上的投影 pp^*p∗ 也不可能在 Py\mathcal{P^y}Py 的边界上,除非 P\mathcal{P}P 中的所有元素都在某个边界上

Proof: 应用散度的 Boundary、毕达哥拉斯定理

Bonennult 发布了37 篇原创文章 · 获赞 27 · 访问量 2万+ 私信 关注

标签:Information,right,mathbf,Geometry,qx,推断,mathcal,mathrm,left
来源: https://blog.csdn.net/weixin_41024483/article/details/104165235