其他分享
首页 > 其他分享> > 不纯度、基尼系数、信息熵等

不纯度、基尼系数、信息熵等

作者:互联网

信息:用于消除随机不确定性东西

一、不纯度:
(1)基尼不纯度可以作为 衡量系统混乱程度的 标准;

(2)基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好;

(3)基尼不纯度为 0 时,表示集合类别一致;

(4)在决策树中,比较基尼不纯度的大小可以选择更好的决策条件(子节点)。

为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,而衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于叶子节点来计算的,所以树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,
也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。

二、信息熵
当一件事情有多种可能情况时,这件事情(宏观态)对某人(观察者)而言具体是哪种情况的不确定性叫做熵,而能够消除该不确定性的事物叫做信息。熵和信息数量相等意义相反,获取信息意味着消除不确定性(熵)。

熵值越大代表着随机变量的不确定性越大,熵值越小代表着随机变量的不确定性越小,当所有事件的不确定性相等的时候熵最大。

三、信息增益:
意义: 表示已知特征A的信息而使得类D的不确定性减少的程度

四、基尼指数:(基尼不纯度)
表示样本集合中一个随机选中的样本被分错的概率。基尼指数越小表示集合中被选中的样本被分错的概率越小,也就说集合的纯度越高,反之,集合越不纯。
基尼指数=样本呢被选中的概率*样本被分错的概率。

标签:不确定性,纯度,基尼,信息熵,基尼系数,集合,节点,决策树
来源: https://www.cnblogs.com/kafukasy/p/14669877.html