首页 > 其他分享> > 智能技术_5：决策树

智能技术_5：决策树

2021-04-09 17:30:35 作者：互联网

目录

1 决策树
2. 信息增益(Information Gain)为基础的决策树
3. Gini系数为基础之决策树-CART
- 3.1 CART之案例3
4. 卡方统计量为基础之决策树方法-CHAID

智能技术_1:安装TensorFlow和Keras
智能技术_2:大数据分析与机器学习概论
智能技术_3:关联规则
智能技术_4：贝叶斯分类和贝叶斯网络
智能技术_5：决策树

# 写于2021.04.09
# 本文为学习笔记，用的ppt是陈志华教授的
# 笔记只为交流，侵删
# 总结不易 望赞鼓励

1 决策树

决策树具有监督式的特征萃取与描述的功能，将输入数据属性根据目标设定来选择分支资料属性和分支方式，并以树枝状的层级架构呈现，以萃取分类规则。经过修整后的决策树模型可以作为资料探索或预测。决策树可以找出目标属性和各个数据属性的层级关系。

我的理解就是决策树是来选择当前对结果影响最大的属性的。

在这里插入图片描述
那么我们目标预测购买不购买不动产，应该关注婚姻属性还是收入属性？可以用决策树判断。

2. 信息增益(Information Gain)为基础的决策树

2.1 ID3

方法：①算出目标属性的信息乱度；②算出不同条件下，目标属性的概率③用公式算出目标属性乱度和有条件下的目标属性乱度差值。

结论：差值越大，信息越多，属性越重要

2.1.1 公式

在这里插入图片描述

2.1.2 ID3之案例3

在这里插入图片描述

①算出目标属性的信息乱度:
在这里插入图片描述

②算出不同条件下，目标属性的概率:

【婚姻】条件下：
【年龄】条件下：
【收入】条件下：

③用公式算出目标属性乱度和有条件下的目标属性乱度差值。

【婚姻】条件下：
【年龄】条件下：
【收入】条件下：

在这里插入图片描述

④第一阶段结论：三属性选出一个最重要的属性，然后同样方法从两个属性里挑

在这里插入图片描述

当Gain值一样，婚姻比年龄考前，那么算法会选前者。 选择婚姻属性后，成：

在这里插入图片描述
我们只看剩下的部分。

⑤ 同样方法计算剩下两个属性。

第二轮【年龄】条件下：

在这里插入图片描述

第二轮【收入】条件下：

在这里插入图片描述

⑥最终结果
在这里插入图片描述

2.2 C4.5/C5.0

C4.5/C5.0与ID3不同的地方在于运用「信息增益比(Information Gain Ratio)」作为分支准则

2.2.1 C4.5/C5.0过程

在这里插入图片描述

【婚姻】条件
【年龄】条件
【收入】条件

2.2.2 C4.5/C5.0优势

在这里插入图片描述

3. Gini系数为基础之决策树-CART

思路和增益差不多，用Gini系数为不纯度(Impurity)

方法：①算出目标属性的不纯度；②算出不同条件下，目标属性的概率③用公式算出目标属性不纯度和有条件下的目标属性不存度差值。

结论：差值越大，信息越多，属性越重要

3.1 CART之案例3

在这里插入图片描述

【婚姻】条件
【年龄】条件
【收入】条件
筛选出一个属性后的样子
第二轮【年龄】条件
第二轮【收入】条件

4. 卡方统计量为基础之决策树方法-CHAID

卡方自动交互检视法(Chi-Square Automatic Interaction Detector, CHAID)为以卡方统计量为基础之决策树方法。
计算每个数据属性与目标属性的完全独立值，再计算真值与完全独立值的卡方统计量若真值与完全独立值相似，则代表该数据属性与目标属性独立，反之，则是具有相依性取出相依性最高的数据属性作为节点

在这里插入图片描述

①婚姻与购买不动产的卡方统计量计算方式
②年龄与购买不动产的卡方统计量计算方式
- ③收入与购买不动产的卡方统计量计算方式
④第一轮结果
⑤第二轮：年龄与购买不动产的卡方统计量计算方式
⑥第二轮：收入与购买不动产的卡方统计量计算方式
⑦第二轮结果

标签：技术,目标,智能,条件,卡方,C4.5,决策树,属性
来源： https://blog.csdn.net/wistonty11/article/details/115552072