其他分享
首页 > 其他分享> > 智能技术_5:决策树

智能技术_5:决策树

作者:互联网

目录


智能技术_1:安装TensorFlow和Keras
智能技术_2:大数据分析与机器学习概论
智能技术_3:关联规则
智能技术_4:贝叶斯分类和贝叶斯网络
智能技术_5:决策树


# 写于2021.04.09
# 本文为学习笔记,用的ppt是陈志华教授的
# 笔记只为交流,侵删
# 总结不易 望赞鼓励

1 决策树

决策树具有监督式的特征萃取与描述的功能,将输入数据属性根据目标设定来选择分支资料属性和分支方式,并以树枝状的层级架构呈现,以萃取分类规则。经过修整后的决策树模型可以作为资料探索或预测。决策树可以找出目标属性和各个数据属性的层级关系。

我的理解就是决策树是来选择当前对结果影响最大的属性的。

在这里插入图片描述
那么我们目标预测购买不购买不动产,应该关注婚姻属性还是收入属性?可以用决策树判断。

2. 信息增益(Information Gain)为基础的决策树

2.1 ID3

方法:①算出目标属性的信息乱度;②算出不同条件下,目标属性的概率③用公式算出目标属性乱度和有条件下的目标属性乱度差值。

结论:差值越大,信息越多,属性越重要

2.1.1 公式

在这里插入图片描述

2.1.2 ID3之案例3

在这里插入图片描述

①算出目标属性的信息乱度:
在这里插入图片描述

②算出不同条件下,目标属性的概率:

③用公式算出目标属性乱度和有条件下的目标属性乱度差值。

在这里插入图片描述

在这里插入图片描述

当Gain值一样,婚姻比年龄考前,那么算法会选前者。 选择婚姻属性后,成:

在这里插入图片描述
我们只看剩下的部分。

⑤ 同样方法计算剩下两个属性。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

⑥最终结果
在这里插入图片描述

2.2 C4.5/C5.0

C4.5/C5.0与ID3不同的地方在于运用「信息增益比(Information Gain Ratio)」作为分支准则

2.2.1 C4.5/C5.0过程

在这里插入图片描述

2.2.2 C4.5/C5.0优势

在这里插入图片描述

3. Gini系数为基础之决策树-CART

思路和增益差不多,用Gini系数为不纯度(Impurity)

方法:①算出目标属性的不纯度;②算出不同条件下,目标属性的概率③用公式算出目标属性不纯度和有条件下的目标属性不存度差值。

结论:差值越大,信息越多,属性越重要

3.1 CART之案例3

在这里插入图片描述

4. 卡方统计量为基础之决策树方法-CHAID

卡方自动交互检视法(Chi-Square Automatic Interaction Detector, CHAID)为以卡方统计量为基础之决策树方法。
计算每个数据属性与目标属性的完全独立值,再计算真值与完全独立值的卡方统计量若真值与完全独立值相似,则代表该数据属性与目标属性独立,反之,则是具有相依性取出相依性最高的数据属性作为节点

在这里插入图片描述

标签:技术,目标,智能,条件,卡方,C4.5,决策树,属性
来源: https://blog.csdn.net/wistonty11/article/details/115552072