ML21_集成学习_核心知识点 机器学习
作者:互联网
[期末考试][笔记整理]
- 集成学习基本思路: 结合多个学习器
- 集成学习的分类
- 同质:
- 组成:同类个体学习器
- 组件被称为:基学习器
- 异质
- 组成:非同类个体学习器
- 组件被称为:组件学习器
- 同质:
- 弱学习器
- 定义: 略强于随机猜测的学习器
- 效果: 集成弱学习器的效果较好
- 实际使用: 为了减少学习器个数\重用经验,往往用强学习器
- 学习器的要求
- 准确
- 多样
- 按个体生成方法集成学习分类
- boosting: 个体间强依赖,串行生成
- bagging与随机森林: 个体间不存在强依赖,可并行生成
- boosting
- 思路: 训练一个基学习器-> 根据效果调整样本分布–> 用调整后的样本训练下一个学习器–> 生成一定数量的学习器后,加权结合
- 代表:adaboost
- 样本分布的调整方法
- 重赋权:
- 按照要求更新权重
- 抛弃后停止
- 重采样
- 抛弃后可重启动
- 重赋权:
- 侧重点:偏差
- bagging
- 思路:使用自助法,得到多个交叠的采样子集,生成多个学习器
- 结合方法
- 回归问题:平均
- 分类问题:投票
- 算法[书本]
- 随机森林
- 概念:决策树的bagging集成
- 随机性的体现:
- 最优划分时
- 随机生成属性子集,从中选择(而不是从可用属性中选)
- 特点
- 简单 开销小
- 多样性强= 样本扰动+ 属性扰动
- 个体性能查 但集成起来效果好
- 训练效率高(因为属性集变小了)
- 不相关的结果可用互相抵消
- 不敏感 支持并行
- 大噪声 易过拟合
- 多个学习器结合的好处
- 在相同性能的假设上有多次选择,避免误选
- 有机会跳出局部极小点
- 能够扩大假设空间
- 结合策略
- 平均法
- 加权平均不一定优于简单平均
- 大规模数据下 加权易过拟合
- 学习器之间性能差距大才进行加权
- 投票法
- 分类
- 绝对多数: 未过半可拒绝投票
- 相对多数: 最多的标记,多个最多则任选
- 加权
- 使用类概率一般好于类标记
- 分类
- 学习法
- 思路:初级学习器+ 次级学习器
- 代表:stacking
- 特点:鲁棒 不敏感
- 平均法
- 误差-分歧分解
- 形式: E= E ˉ − A ˉ \bar{E}-\bar{A} Eˉ−Aˉ 误差-分歧
- 不能作为优化目标的原因
- 定义在整个样本空间
- 构造完模型后才能取得
- 多样性度量: 关注个体学习器的相似性
- 指标:
- 相关系数
- Q统计量
- K统计量
- 指标:
- k-误差图
- 点云高:准确度低
- 点云靠右: 多样性低
- 多样性的增强方法
- 数据扰动
- 适用: 不稳定的基学习器(树 神经网络)
- 属性扰动
- 适用:稳定的基学习器(SVM 贝叶斯 线性)
- 输出扰动
- 改标记
- 转化输出
- 拆解
- 强制算法参数
- 数据扰动
标签:集成,知识点,加权,ML21,个体,学习,扰动,生成 来源: https://blog.csdn.net/roswellnotfound/article/details/122193458