首页 > TAG信息列表 > 基尼系数
基础决策树算法
(原创)本文讨论机器学习的基础的决策树算法 1.预备知识:信息度量的相关量 (1)信息熵 使用信息熵来度量信息的不确定性信息熵的数学式为: 加和 -plogp,熵越大,不确定性越大 (2)信息增益,某特征下信息增益 = 原熵 - 按特征A分割后的熵信息增益越大的,说明对不确定性的削弱越高,那么应该优先该特征不纯度、基尼系数、信息熵等
信息:用于消除随机不确定性东西 一、不纯度: (1)基尼不纯度可以作为 衡量系统混乱程度的 标准; (2)基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好; (3)基尼不纯度为 0 时,表示集合类别一致; (4)在决策树中,比较基尼不纯度的大小可以选择更好的决策条件(子节点)。 为了要将表格转化为一棵Task05 使用sklearn构建完整的分类项目
本文参考链接 https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntegratedLearning 1. 导入数据集 本次使用的是sklearn自带的 IRIS鸢尾花数据集 导包 import numpy as np import pandas as pd 导入数据集 from sklearn import datasets iris = d洛伦兹曲线(Lorenz curve)-揭秘贫富差异原因
洛伦兹曲线(Lorenz curve)也叫提升图或收益曲线。定义:洛伦兹曲线是一种显示经济体内收入(或财富)分布的方式。在经济学中,洛伦兹曲线是收入或财富分配的图形表示。它是由开发马克斯·劳伦茨在1905年代表不平等的的财富分配。洛伦兹曲线显示了人口不同部分的收入累计份额。如果存在完全平StatQuest系列之Decision Trees
视频来自B站:StatQuest - Decision Trees 一、建立决策树 现在有一组数据,是病人的健康程度,即胸痛、血液循环、动脉阻塞,以及该病人是否有心脏病,现在我们要用这组数据建立一个决策树,来预测一个人是否有心脏疾病,数据如下: 决策树是由许多的yes/no节点组成的树状分类器,该例子中病决策树
目录什么是决策树信息熵信息熵计算公式使用信息熵寻找最优划分基尼系数二分类问题的基尼系数信息熵 & 基尼系数CART决策树的复杂度 什么是决策树 KNN 和 决策树 是非参数算法(大部分算法都是参数算法); 可以解决分类问题,天然可以解决多分类问题; 可以解决回归问题; 具有非常好的可解基尼系数(Gini Impurity)的理解和计算
一、基尼指数的概念 基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0. 二、基尼系数的计算公式 基尼指数基尼系数
学习了基尼系数的计算: 横坐标按照收入从低到高 的人口排序,从左到右人口数目增加,0.5就是人口中位数,比如7亿人。 纵坐标表示的是收入的累计值,基尼系数为0,那么就是绝对平均线,随着人口增加,收入累计值线性增加。