智能技术_5:决策树
作者:互联网
目录
智能技术_1:安装TensorFlow和Keras
智能技术_2:大数据分析与机器学习概论
智能技术_3:关联规则
智能技术_4:贝叶斯分类和贝叶斯网络
智能技术_5:决策树
# 写于2021.04.09
# 本文为学习笔记,用的ppt是陈志华教授的
# 笔记只为交流,侵删
# 总结不易 望赞鼓励
1 决策树
决策树具有监督式的特征萃取与描述的功能,将输入数据属性根据目标设定来选择分支资料属性和分支方式,并以树枝状的层级架构呈现,以萃取分类规则。经过修整后的决策树模型可以作为资料探索或预测。决策树可以找出目标属性和各个数据属性的层级关系。
我的理解就是决策树是来选择当前对结果影响最大的属性的。
那么我们目标预测购买不购买不动产,应该关注婚姻属性还是收入属性?可以用决策树判断。
2. 信息增益(Information Gain)为基础的决策树
2.1 ID3
方法:①算出目标属性的信息乱度;②算出不同条件下,目标属性的概率③用公式算出目标属性乱度和有条件下的目标属性乱度差值。
结论:差值越大,信息越多,属性越重要
2.1.1 公式
2.1.2 ID3之案例3
①算出目标属性的信息乱度:
②算出不同条件下,目标属性的概率:
-
【婚姻】条件下:
-
【年龄】条件下:
-
【收入】条件下:
③用公式算出目标属性乱度和有条件下的目标属性乱度差值。
-
【婚姻】条件下:
-
【年龄】条件下:
-
【收入】条件下:
- ④第一阶段结论:三属性选出一个最重要的属性,然后同样方法从两个属性里挑
当Gain值一样,婚姻比年龄考前,那么算法会选前者。 选择婚姻属性后,成:
我们只看剩下的部分。
⑤ 同样方法计算剩下两个属性。
- 第二轮【年龄】条件下:
- 第二轮【收入】条件下:
⑥最终结果
2.2 C4.5/C5.0
C4.5/C5.0与ID3不同的地方在于运用「信息增益比(Information Gain Ratio)」作为分支准则
2.2.1 C4.5/C5.0过程
-
【婚姻】条件
-
【年龄】条件
-
【收入】条件
2.2.2 C4.5/C5.0优势
3. Gini系数为基础之决策树-CART
思路和增益差不多,用Gini系数为不纯度(Impurity)
方法:①算出目标属性的不纯度;②算出不同条件下,目标属性的概率③用公式算出目标属性不纯度和有条件下的目标属性不存度差值。
结论:差值越大,信息越多,属性越重要
3.1 CART之案例3
- 【婚姻】条件
- 【年龄】条件
- 【收入】条件
- 筛选出一个属性后的样子
- 第二轮【年龄】条件
- 第二轮【收入】条件
4. 卡方统计量为基础之决策树方法-CHAID
卡方自动交互检视法(Chi-Square Automatic Interaction Detector, CHAID)为以卡方统计量为基础之决策树方法。
计算每个数据属性与目标属性的完全独立值,再计算真值与完全独立值的卡方统计量若真值与完全独立值相似,则代表该数据属性与目标属性独立,反之,则是具有相依性取出相依性最高的数据属性作为节点
- ①婚姻与购买不动产的卡方统计量计算方式
- ②年龄与购买不动产的卡方统计量计算方式
- ③收入与购买不动产的卡方统计量计算方式
- ④第一轮结果
- ⑤第二轮:年龄与购买不动产的卡方统计量计算方式
- ⑥第二轮:收入与购买不动产的卡方统计量计算方式
- ⑦第二轮结果
标签:技术,目标,智能,条件,卡方,C4.5,决策树,属性 来源: https://blog.csdn.net/wistonty11/article/details/115552072