机器学习决策树
作者:互联网
1.决策树是非参数的有监督学习方法。
2.根节点:最初问题所在地方。(只有输出没有输入)
3.叶节点:得到的结论。(只有输入没有输出)每一个叶节点都是一个类别标签
4.内部节点:只有一条输入,可有多条输出。
5.子节点和父节点:两个相连节点中,接近根节点的是父节点,另一个是子节点。
6.贪心算法:通过实现局部最优来达到接近全局最优结果的算法。
7.典型决策树算法:Hunt算法:ID3、C4.5、CART
8.不纯度:衡量最佳节点和最佳分枝方法的指标。叶子节点不纯度最低。
9.误差率:可计算出不纯度,classification error(t)=1-max[p(i|t)]
信息增益→信息熵/香农熵:entropy(t)=-∑p(i|t)log2p(i|t) 用于ID3
基尼指数:gini=1-∑[p(i|t)]^2 主要用于CART
10.决策树最终的优化目标:使叶节点的总不纯度最低,即对应衡量不纯度的指标最低。
11.ID3选择最大化增益△的测试条件:△=I(父)-I(子), I(子)=∑(N(vj)/N)*I(vj)按权重计算
12.ID3的局限性:a.分支度高
b.不能直接处理连续型变量,使用时要将连续型变量进行离散化(利用分箱)
c.对缺失值敏感,使用前需对缺失值进行处理
d.没有剪枝容易导致过拟合
13.过拟合:学习能力很强但学得太过精细。在训练集上表现很好,测试集表现糟糕。
14.欠拟合:模型学习能力不足,在训练集和测试集上都表现糟糕。
15.C4.5引入分支度IV,添加了分类变量水平的惩罚项。IV=-∑p(vi)log2p(vi) (ID3是p(i|t))
p(i|t)某类别样例占总样例数→p(vi)某子节点的总样本数占父节点总样本数的比例
16.获利比例/增益率:Gain Rati=gain/IV 希望GR越大越好 (ID3只算到gain,C4.5算到IV和GR)
17.C4.5增加了针对连续变量的处理手段。 N-1个二分方案,选GR最大的切点,切分后并没有消费掉那一列
18.CART树:C4.5上改进,每层都为二叉树。
19.决策树基本流程:计算全部特征的不纯度指标→选取不纯度指标最优的特征来分枝→在第一个特征的分枝下计算全部特征的不纯度指标→选取不纯度指标最优特征继续分枝→……
分类模型:
20.重要参数criterion:决定不纯度的计算方法,默认gini,还可选entropy信息熵
信息熵对不纯度更敏感,使用entropy时决策树生长更“精细”。数据维度大、噪声大时用gini。
21.random_state:随机模式的参与,默认None
splitter:控制决策树中的随机选项。best优先选择更重要的特征,random随机(防止过拟合)。
22.剪枝:决策树容易过拟合,正确的剪枝策略是优化决策树算法的核心。
23.剪枝参数:max_depth限制树的最大深度,建议从=3开始
min_samples_leaf一个节点分枝后子节点至少包含样本数,建议从=5开始
min_samples_split一个节点至少包含样本数
max_features限制分枝时考虑的特征数
min_impurity_decrease限制信息增益的大小
24.确认最优的剪枝参数:使用超参数的学习曲线。
25.重要属性:feature_importances_查看各个特征对模型的重要性
26.接口:score、fit
apply输入测试集返回每个测试样本所在叶子节点的索引 clf.apply(Xtest)
predict返回每个测试样本的标签 clf.predict(Xtest)
27.所有接口要求输入X_train和X_test部分,输入的特征矩阵必须至少为二维矩阵,可使用reshape(1,-1)来增维。
28.二分类决策树样本不均衡问题:使用class_weight,默认None均衡,可用{标签值1:权重1,标签值2:权重2}真实比例,可用balanced模式
使用后样本平衡后准确率会下降。
29.评估指标:混淆矩阵。
a.衡量模型整体效果:准确率Accuracy=(11+00)/(11+10+01+00)
b.捕捉少数类:精确度Precision=11/(11+01) 衡量将多数类判错后所需付出成本,例召回汽车时追求精确度
召回率/敏感度/真正率/查全率Recall=11/(11+10) 不计一切代价找出少数类
假负率FNR=1-recall=10/(11+10)
c.判断多数类:特异度specificity=00/(01+00)
假正率FPR=1-specificity=01/(01+00)
回归模型:
30.重要参数criterion:mse均方误差 MSE=1/N*∑(fi-yi)^2 MSE是常用的衡量回归质量的指标,越小越好
friedman_mse费尔德曼均方误差
mae绝对平均误差
31.重要属性:feature_importances_
32.重要接口:apply、fit、predict
score:返回R^2,R^2=1-残差平方和/总平方和
33.决策树优点:易于理解和解释、需要很少的数据准备(但sklearn中决策树不支持对缺失值的处理)、使用树的成本低、既可以做回归又可以做分类、能够处理多输出问题,即含多个标签问题、是一个白盒模型,容易解释、可使用统计测试验证模型(模型可靠)、表现好。
34.决策树缺点:容易过度拟合、可能不稳定,微小变化会导致生成完全不同的树、有些概念决策树不容易表达、决策树会创建偏向主导类的树、贪婪算法不能保证返回全局最优决策树。
标签:11,机器,纯度,ID3,学习,拟合,节点,决策树 来源: https://www.cnblogs.com/yujingwei/p/11073467.html