编程语言
首页 > 编程语言> > 【史诗级干货长文】决策树算法

【史诗级干货长文】决策树算法

作者:互联网

决策树算法

1. 决策树算法简介

决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法

决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。

怎么理解这句话?通过一个对话例子

在这里插入图片描述
想一想这个女生为什么把年龄放在最上面判断 !!!

上面案例是女生通过定性的主观意识,把年龄放到最上面,那么如果需要对这一过程进行量化,该如何处理呢?

此时需要用到信息论中的知识:信息熵,信息增益

小结

2. 决策树分类原理

学习目标

请参考:【机器学习】决策树分类原理

3. cart剪枝

3.1 为什么要剪枝?

在这里插入图片描述

3.2 常用的减枝方法

3.2.1 预剪枝

(1)每一个结点所包含的最小样本数目,例如10,则该结点总样本数小于10时,则不再分;

(2)指定树的高度或者深度,例如树的最大深度为4;

(3)指定结点的熵小于某个值,不再划分。随着树的增长, 在训练样集上的精度是单调上升的, 然而在独立的测试样例上测出的精度先上升后下降。

3.2.2 后剪枝

后剪枝,在已生成过拟合决策树上进行剪枝,可以得到简化版的剪枝决策树。

3.3 小结

4. 特征工程-特征提取

学习目标

请参考:【机器学习】特征工程->特征提取

5. 决策树算法API

6. 案例:泰坦尼克号乘客生存预测

学习目标

请参考:【决策树算法】泰坦尼克号乘客生存预测

7. 回归决策树

学习目标

前面已经讲到,关于数据类型,我们主要可以把其分为两类,连续型数据和离散型数据。在面对不同数据时,决策树也 可以分为两大类型: 分类决策树和回归决策树。 前者主要用于处理离散型数据,后者主要用于处理连续型数据

请参考:【机器学习】回归决策树

加油!

感谢!

努力!

标签:剪枝,样本数,特征提取,算法,干货,长文,节点,决策树
来源: https://blog.csdn.net/qq_46092061/article/details/118760707