其他分享
首页 > 其他分享> > 决策树思想步骤讲解和常见决策树方法的区别(超级易懂!)

决策树思想步骤讲解和常见决策树方法的区别(超级易懂!)

作者:互联网

决策树

决策树算法也算是听过很多遍的算法了,关于那个怎么选择对象的例子也听了许多遍,但是之前一直理解不够深刻,满脑子能够记住的只有那个树的形状和知道要分数据。可是对于怎么分数据,为什么分数据,一些常见的词(信息熵、信息增益、基尼系数)和算法都是什么样子的都不是很清楚。最近学校上课又好好的听了一遍(感觉老师讲的还是很好的),把这些基础的知识都弄懂了,在这里用简单的语言总结一下。本篇文章偏向于理解~

文章目录

决策树的思想和步骤

先做一个引入铺垫一下,时间有限的可以直接跳转到黑色的标题那里。

关于决策树这个方法是怎么产生的我没有查证,可能也无从查证,但是我猜大概是这样的。有一天,突然发现具有某一类特征的大多数是一类人,具有另外的特征的就是另外一类人,简单来说,类由特征分出(虽然会有一些例外,但是大多数都是符合的,也就是说可以用来做群体决策)。其实这也很符合人类最开始的分类方法啊,参考下人类怎么分男生女生的就明白了,这样看来我们早就会使用决策树了呢~

但是有一些问题,总是是似而非,难以像男生女生一样给出一个明确的分类标准,比如什么人可以还的起贷款,什么人值得被爱…你能找出什么特征来说明嘛?有房的人一定还的起贷款嘛?学历低的人一定还不起嘛?找不到吧。肯定找不到啊,人类具有太多的不确定性了。所以只好搜集和我最想找到的本质的东西最相关的一些数据,按照这些数据进行分类,并且尽可能的减少分类的错误率。(比如指标完全相同的两个东西,结果可能不同,我们想做的就是尽可能的知道这个结果的偏向,因为不存在完全正确的结果)

造成上面的似是而非的因素还有可能的原因就是,一些数据搜集不到。比如判断男生女生只能搜集到身高和头发的长度,但是搜集不到本质的判断标准。也许世界上的所有事情都有一个本质可以判断的指标,但是这个指标是一种极端抽象不可衡量的东西吧。

基本思想和步骤

怎么衡量信息来确定分支点?

分类数据(值是分类,没有含义只是代表不同的种类)

信息熵、条件熵和基尼系数
信息增益和信息增益率

开始的时候,我们认为信息的随机性的减少是一种有好处的事情,我们把这个好处叫做信息增益,把这个值定义为
在这里插入图片描述
每一步,我们希望这个增益尽量的大,希望最后的信息熵尽量的小,但是存在一个问题。假如说物以类聚,人以群分,如果我把每一个人都分成一个单独的类,那么是不是信息熵会非常非常的小呢?这样信息增益是不是就很大呢?但是这样也没有意义啊。那怎么衡量呢?于是利用了修正的思想,相对于分类的数目,给予了一个惩罚项,这个惩罚项满足在分类越多的时候,值就越大,用信息增益除以这个惩罚项,得到信息增益率,希望信息增益率越大越好。这样就能在保证分类数不会过多的情况下,得到较好的分类结果。
惩罚项:(形式和信息熵很像,也可以理解为是类种的分类的信息熵,里面的分子表示分到每一类的样本的数量,下面是样本的总的数量)
在这里插入图片描述
信息增益的公式
在这里插入图片描述

连续数据(值是度量,有含义的数据)

一般用残差平方和来度量,希望这个值较小比较好。但是容易发生过拟合,实际操作中常常设置当一个树枝的点小于20的时候就不分了(不过没有说总的数据量,感觉这样设置会存在一点问题)。
在这里插入图片描述

选择特征的方法

一般是把每个特征都试一下,选择可以使得信息增益增加更大(或者信息增益率更大)或者残差减小最多的特征作为节点,之后同样的方法不断的选择特征来分就可以了。

剪枝的问题

因为决策树还是比较容易出现过拟合的现象的,即分支分的太多太碎,明明训练的是树叶,但是因为一开始的样本是锯齿状的,所以认为锯齿状的才是树叶。为了防止这种现象,就要进行减枝。有预剪枝和后剪枝。思路都是按照现有的树计算错分率来完成的。错分率显著的上升的时候,认为这种划分没有必要,就不要这种划分。

常见的决策树方法和区别

ID3算法

C4.5算法

CART算法

一道练习题目

#手算的一道题目(其实是我们的作业题)可以练练手,看下理解了没有~
在这里插入图片描述

几个疑问?

//文章里面有任何不懂的地方或者有质疑的地方可以在评论区问嗷~有时间看到会回复哒

标签:分类,增益,信息,信息熵,讲解,易懂,数据,决策树
来源: https://blog.csdn.net/m0_46716894/article/details/120858406