首页 > 其他分享> > 决策树-基尼指数

决策树-基尼指数

2021-01-11 22:04:56 作者：互联网

基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。

注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0.

基尼指数的计算方法为：
在这里插入图片描述
其中，pk表示样本属于第k个类别的概率

举例：根据天气状况预测是否打高尔夫，首先计算根节点的基尼指数：
在这里插入图片描述
原始数据的基尼不纯度计算：一共14条数据，5次No，9次Yes，所以：

Gini=1-（5/14）*（5/14）-（9/14）*（9/14）=0.459

然后计算晴朗程度outlook的Gini指数：
在这里插入图片描述
加权的基尼不纯度：

（5/14）Gini(2,3)+(4/14)Gini(4,0)+(5/14)Gini(3,2)=0.342
基尼增益为：0.459-0.342=0.117

在计算温度Temp，湿度Humidity和wind的基尼指数
总体为：
使用outlook分隔的Gini增益： 0.117（最佳分隔特征）
使用temp分隔的Gini增益： 0.0185
使用Humidity分隔的Gini增益： 0.0916
使用Wind分隔的Gini增益： 0.0304

CART树是二叉树，对于一个具体有多个取值（超过2个）的特征，需要计算以每一个取值作为划分点，对样本D划分之后子集的纯度Gini（D，Ai),然后从所有的可能划分的Gini（D，Ai）中找出Gini指数最小的划分，这个划分的划分点，便是使用特征A对样本集合D进行划分的最佳划分点。

outlook是最优的分隔特征，接下来计算rainy，overcast和sunny的基尼指数，选择最小的作为分割节点即可

标签：Gini,分隔,14,指数,样本,基尼,划分,决策树
来源： https://www.cnblogs.com/ai-ldj/p/14264618.html