其他分享
首页 > 其他分享> > 信息论和数理统计——机器学习基础

信息论和数理统计——机器学习基础

作者:互联网

目录

一、信息论

{{uploading-image-498317.png(uploading...)}}
信息论处理的是客观世界中的不确定性。
通信的基本问题是在点精确地或近似地复现在另一点所选取的消息,消息通常有意义,本身指向或关联物理上或概念上的特定实体。

在生活中,信息的载体是消息。不同的消息带来的信息在直观感觉上不是完全相同的,比如“马云获得奥赛健美冠军”比“施瓦辛格获得奥赛健美冠军”的信息要大得多。
因为前者是小概率事件,而后者我们已经习以为常。
不确定性越大的消息提供的信息量越大。

一个系统内在的混乱程度

信源

产生消息(符号)、消息序列和连续消息的来源。

信息量

信息多少的明天计划
在信息论中,如果事件A发生的概率为$p(A)$,则这个事件的自信息量定义为
$h(A)=−log_2p(A)$
比如:当$p(A$)为1/1000得出信息量约为10,当$p(A)$为1/2得出的信息量约为1

信息熵

信息熵是信源可能发出的各个符号的自信息量在信源构成的概率空间上的统计平均值。
根据单个事件的自信息量可以计算包含各个符号的信源的信息熵
如果一个离散信源X包含n个符号,每个符号$a_i$的取值为$p(a_i)$,则X的信源熵为
$H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)$

条件熵

在概率论中有条件概率的概念,将条件概率扩展到信息论中,就可以得到条件熵。
如果两个信源之间具有相关性,那么在已知其中一个信源X的条件下,另一个信源熵就会减小。
条件熵$H(Y∣X)$表示的是在已知随机变量$X$的条件下,另一个随机变量$Y$的不确定性,也就是在给定$X$时,根据$Y$的条件概率计算出的熵再对$X$求数学期望
$ H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i) $
$= -\sum_{i=1}np(x_i)\sum_{j=1}mp(y_i|x_i)log_2p(y_i|x_i)$
$= -\sum_{i=1}n\sum_{j=1}np(x_i,y_i)log_2p(y_j|x_i)$
条件熵的意义在于先按照变量$X$的取值对变量Y进行了一次分类,对每个分出来的类别计算其单独的信息熵,再将每个类的信息熵按照$X$的分布计算其数学期望。

信息增益(互信息)

在机器学习中,信息增益描述了一个特征带来的信息量的多少,常于分类特征的选择。
信息增益=信息熵-条件熵
假设存在一个随机变量$X$,和另外一个随机变量$Y$,那他们的信息增益是
$I(X;Y)=H(Y)-H(Y|X)$
可以理解为X给Y带来的信息增益。
对于给定的训练数据集$Y$,$H(Y)$表示在未给定任何特征时,对训练集进行分类的不确定性
$H(Y|X)$表示了使用特征$X$对训练集$Y$进行分类的不确定性.
信息增益表示的是特征$X$带来的对训练集$Y$分类不确定性的减少程度,也就是特征$X$对于训练集$Y$的区分度。

信息增益比

信息增益值很大程度依赖于数据集的信息熵$H(Y)$,因而不具有绝对意义。为了解决这个问题,研究者提出了信息增益比
$g(X,Y)=I(X;Y)/H(Y)$

相对熵(KL散度)

用于描述两个不同概率分布之间的差异。
$D_{KL}(P||Q)=\sum_{i=1}^np(x_i)log_2\frac{p(x_i)}{q(x_i)}$
相对熵是用来度量使用基于$P$的编码来编码来自$Q$的样本平均所需的额外的比特个数。

最大熵原理

在只掌握未知分布的部分知识时,应该选取符合这这些知识但熵值最大的概率分布。
最大熵原理实质是满足已知的知识前提下,对于未知的分布应该是自己最不能确定或最随机的分布,因为只有这样,最终的分布才能代表一个最公平的选择。

信息论使用“信息熵”的概念,对单个信源的信息量和通信中传递信息的数量与效率等问题做出了解释,并在世界的不确定性和信息的可测量性之间搭建起一座桥梁

二、数理统计

数理统计(mathematical statistics)的任务是根据可观察的样本反过来推断总体的性质
推断的工具是统计量,统计量是样本的函数,是个随机变量
数理统计根据观察或实验得到的数据来研究随机现象,并对研究对象的客观规律做出合理的估计和判断。
基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释,只有做出合理的解释,数据的价值才能够体现。

泛化能力:模型用于不属于测试集的新样本的能力。泛化能力越强,学习器越好

和概率论的区别

概率论在找下一个点,数理统计则是局部推整体,

以买彩票为例

统计推断方式

参数估计

参数估计通过随机抽取的样本来估计总体分布的未知参数,包括点估计和区间估计
* 点估计(point estimation)
具体的方法包括矩估计法(method of monents)和最大似然估计法(maximum likelihood estimation)
两种方法都代表了推断总体参数的思路,但是对于同一个参数,用不同的估计方法求出的估计量很可能存在差异,这通常用无偏性、有效性、一致性来评价
* 区间估计(interval estimation)
区间估计相当于在点估计的基础上进一步提供了取值范围和误差界限

假设检验

通过随机抽取的样本来接受或拒绝关于总体的某个判断

假设检测的作用是根据学习器在测试集上的性能推断其泛化能力的强弱,并确定所得结论的精确程度,可以进一步推广为比较不同学习器的性能。

泛化性误差的构成可以为三部分:
- 偏差(bias)
算法预测值和真实结果之间的偏离程度,刻画的是模型的欠拟合我
- 方差(variance)
表示数据的扰动对预测性能的影响,刻画的是模型的过拟合特性
- 噪声(noise)
表示当前学习任务上能够达到的最小泛化误差,刻画的是任务本身的难度

标签:机器,信息量,增益,信源,数理统计,随机变量,信息论,信息熵
来源: https://www.cnblogs.com/chenqionghe/p/12575525.html