其他分享
首页 > 其他分享> > 统计学习方法——决策树

统计学习方法——决策树

作者:互联网

一、决策树模型(分类与回归方法)

1.1 基本概念

1.2 决策树的学习

二、特征选择

2.1 熵与条件熵

2.2 信息增益

2.3 信息增益比

三、决策树的生成

3.1 ID3算法

3.2 C4.5算法

四、决策树的剪枝

4.1 预剪枝

4.2 后剪枝

五、CART算法

5.1 回归树

假设 X X X与 Y Y Y分别为输入和输出变量,并且 Y Y Y是连续变量,给定训练数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} D={(x1​,y1​),(x2​,y2​),⋯,(xN​,yN​)}一个回归树对应着输入空间的一个划分以及在划分的单元上的输出值。假设已将输入空间划分为 M M M个单元 R 1 , R 2 , ⋯   , R M R_1,R_2,\cdots,R_M R1​,R2​,⋯,RM​,并且在每个单元 R m R_m Rm​上有一个固定的输出值 c m c_m cm​,于是回归树模型可表示为 f ( x ) = ∑ m = 1 M c m I ( x ∈ R m ) f(x)=\sum_{m=1}^Mc_mI(x\in R_m) f(x)=m=1∑M​cm​I(x∈Rm​)当输入空间的划分确定时,可以用平方误差 ∑ x i ∈ R m ( y i − f ( x i ) ) 2 \sum_{x_i\in R_m}(y_i-f(x_i))^2 ∑xi​∈Rm​​(yi​−f(xi​))2来表示回归树基于训练数据集的预测误差,用平方误差最小的准则求解每个单元上的最优输出值。易知,单元 R m R_m Rm​上的 c m c_m cm​的最优值 c ^ m \hat c_m c^m​是 R m R_m Rm​上的所有输入实例 x i x_i xi​对应得输出 y i y_i yi​的均值,即 c ^ m = a v e ( y i ∣ x i ∈ R m ) \hat c_m=ave(y_i|x_i\in R_m) c^m​=ave(yi​∣xi​∈Rm​)

5.2 分类树

标签:剪枝,结点,Gini,特征,学习,增益,统计,决策树
来源: https://blog.csdn.net/L_earning_/article/details/123602969