首页 > 其他分享> > 基尼系数（Gini Impurity）的理解和计算

基尼系数（Gini Impurity）的理解和计算

2021-01-12 08:01:59 作者：互联网

一、基尼指数的概念

基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。
注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0.

二、基尼系数的计算公式

基尼指数的计算公式为：
在这里插入图片描述

三、计算示例

我们分别来计算一下决策树中各个节点基尼系数：
在这里插入图片描述
以下excel表格记录了Gini系数的计算过程。

我们可以看到，GoodBloodCircle的基尼系数是最小的，也就是最不容易犯错误，因此我们应该把这个节点作为决策树的根节点。在机器学习中，CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。这和信息增益（比）相反。

标签：Gini,Impurity,纯度,样本,基尼,基尼系数,集合
来源： https://www.cnblogs.com/ai-ldj/p/14265215.html