集成学习理解
作者:互联网
集成学习
概念:先构建一组分类器/学习器,再将分类器/学习器的预测结果进行结合,通过各种方式做出最终的决策。
集合方法可分为两类:
(1)序列集成方法,其中参与训练的基础学习器按照顺序生成(例如 AdaBoost)。序列方法的原理是利用基础学习器之间的 依赖关系。通过对之前训练中错误标记的样本赋值较高的权重,可以提高整体的预测效果。
(2)并行集成方法,其中参与训练的基础学习器并行生成(例如 Random Forest)。并行方法的原理是利用基础学习器之间 不存在强依赖关系有独立性,通过平均可以显著降低错误[1]。
一、Boosting(AdaBoost减小偏差)
思想:从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;
关于AdaBoost算法:他是Boosting族算法中最著名的代表。刚开始训练时对每个训练例赋相同的权重,然后用该算法对训练集训练T轮,每次训练后,对训练失败的训练例赋更大的权重,也就是让学习算法在每次学习以后更注意学错的样本,从而得到多个预测函数/基分类器。通过拟合残差的方式逐步减小残差,将每一步生成的模型叠加得到最终模型【1】。
二、bagging 与 random Forest
1.bagging(减小方差)
bootstraping:有放回采样
bagging:通过有放回的采样在有
m
m
m个样本的数据集中采
m
m
m次,得到有
m
m
m个样本的采样集,其中可能有重复的样本,通过这种方式我们可以构造
T
T
T个采样集,然后利用T个采样集产生
T
T
T个基学习器,再将这
T
T
T个基学习器结合,得到bagging。算法流程如下图:
2.随机森林RF
RF是Bagging的一个扩展变体。是将Bagging与决策树相结合,多个基学习器对应为多个决策树。
特点:样本选择 和 特征选择 都是随机选的。
样本选择随机是指每次都随机选择一个比例,以这个比例从全部样本中来抽取样本,假如有10个样本,生成一棵树时,随机选择比例为0.6,则通过有放回的方式抽取6个样本。
特征选择随机是指样本有多种特征,我们随机的选择特征来构建决策树。
三、结合策略
有三种: 平 均 法 , 投 票 法 和 学 习 法 \color{#FF3030}{平均法,投票法和学习法} 平均法,投票法和学习法。
平均法
(1)简单平均法:
H
(
x
)
=
1
T
∑
i
=
1
T
h
i
(
x
)
H(x)=\frac{1}{T}\sum_{i=1}^Th_i(x)
H(x)=T1i=1∑Thi(x)
(2)加权平均法:
H
(
x
)
=
∑
i
=
1
T
w
i
h
i
(
x
)
H(x)=\sum_{i=1}^Tw_ih_i(x)
H(x)=i=1∑Twihi(x)
权重
w
i
w_i
wi为非负权重,且和为1。
基学习器差异大时,使用加权平均法;差异小时,使用简单平均法。
投票法
(1)绝对多数投票法
若某标记得票过半数,则预测为该标记;否则拒绝预测。
(2)相对多数投票法
预测为得票最多的标记,若同时有多个标记获最高票,则从中随机选取一个。
(3)加权投票法
加权取各基学习器的预测结果,得到最终的预测结果。
(4)软投票与硬投票
硬投票规则:少数服从多数
硬投票有时是不合理的,引入软投票:(软投票要求集合的每个模型都能估计概率)
举一些能够估计概率的模型(可用软投票):
学习法(Stacking)
用另一个学习器来结合多个基学习器。这里我们把基学习器称作初级学习器,把用于结合的学习器称为次级学习器或元学习器。我们将训练样本分为两部分,一部分用来训练初级学习器,初级学习器的预测结果和另一部分训练样本一起训练次级学习器,由此得到最终结果。
由于参数很多,所以存在过拟合问题。sklearn里面没有这种函数。
四、参考文献
【1】机器学习-集成学习
【2】周志华《机器学习》
标签:集成,训练,样本,平均法,学习,理解,投票,随机 来源: https://blog.csdn.net/selinaliujunlan/article/details/112569420