其他分享
首页 > 其他分享> > 2021-10-27

2021-10-27

作者:互联网

机器学习实战,决策树


前言

提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、决策树是什么?

决策树 是表示基于特征对实例进行分类的树形结构
从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据集进行分割,使得各子数据集有一个最好的分类的过程。

决策树算法3要素:
特征选择
决策树生成
决策树剪枝

关于决策树生成
决策树的生成过程就是,选择满足划分准则的特征不断的将数据集划分为纯度更高,不确定性更小的子集的过程。
对于当前数据集D的每一次的划分,都希望根据某特征划分之后的各个子集的纯度更高,不确定性更小。

划分标准–特征选择准则:
目的:使用某特征对数据集划分之后,各数据子集的纯度要比划分前的数据集D的纯度高(不确定性要比划分前数据集D的不确定性低。)
注意:
1. 划分后的纯度为各数据子集的纯度的加和(子集占比*子集的经验熵)。
2. 度量划分前后的纯度变化 用子集的纯度之和与划分前的数据集D的纯度 进行对比。
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

特征选择的准则主要有以下三种:信息增益,信息增益率,基尼指数

二、使用步骤

1.熵

定义为信息的期望值,用来度量信息的不确定性(纯度)

定义:假设随机变量X的可能取值有x1,x2, … , xn
对于每一个可能的取值xi,其概率 P(X=xi) = pi , ( i = 1,2, … , n)
因此随机变量X的熵:
请添加图片描述
对于样本集合D来说,随机变量X是样本的类别,即,假设样本有k个类别,每个类别的概率是,

其中|Ck|表示类别k的样本个数,|D|表示样本总数请添加图片描述

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

标签:10,27,纯度,划分,子集,2021,import,数据,决策树
来源: https://blog.csdn.net/Lixiaoyyyu/article/details/121003270