其他分享
首页 > 其他分享> > ML21_集成学习_核心知识点 机器学习

ML21_集成学习_核心知识点 机器学习

作者:互联网

[期末考试][笔记整理]

  1. 集成学习基本思路: 结合多个学习器

  1. 集成学习的分类
    1. 同质:
      1. 组成:同类个体学习器
      2. 组件被称为:基学习器
    2. 异质
      1. 组成:非同类个体学习器
      2. 组件被称为:组件学习器

  1. 弱学习器
    1. 定义: 略强于随机猜测的学习器
    2. 效果: 集成弱学习器的效果较好
    3. 实际使用: 为了减少学习器个数\重用经验,往往用强学习器

  1. 学习器的要求
    1. 准确
    2. 多样

  1. 按个体生成方法集成学习分类
    1. boosting: 个体间强依赖,串行生成
    2. bagging与随机森林: 个体间不存在强依赖,可并行生成

  1. boosting
    1. 思路: 训练一个基学习器-> 根据效果调整样本分布–> 用调整后的样本训练下一个学习器–> 生成一定数量的学习器后,加权结合
    2. 代表:adaboost
    3. 样本分布的调整方法
      1. 重赋权:
        1. 按照要求更新权重
        2. 抛弃后停止
      2. 重采样
        1. 抛弃后可重启动
    4. 侧重点:偏差

  1. bagging
    1. 思路:使用自助法,得到多个交叠的采样子集,生成多个学习器
    2. 结合方法
      1. 回归问题:平均
      2. 分类问题:投票
    3. 算法[书本]

  1. 随机森林
  2. 概念:决策树的bagging集成
  3. 随机性的体现:
    1. 最优划分时
    2. 随机生成属性子集,从中选择(而不是从可用属性中选)
  4. 特点
    1. 简单 开销小
    2. 多样性强= 样本扰动+ 属性扰动
    3. 个体性能查 但集成起来效果好
    4. 训练效率高(因为属性集变小了)
    5. 不相关的结果可用互相抵消
    6. 不敏感 支持并行
    7. 大噪声 易过拟合

  1. 多个学习器结合的好处
  2. 在相同性能的假设上有多次选择,避免误选
  3. 有机会跳出局部极小点
  4. 能够扩大假设空间

  1. 结合策略
    1. 平均法
      1. 加权平均不一定优于简单平均
      2. 大规模数据下 加权易过拟合
      3. 学习器之间性能差距大才进行加权
    2. 投票法
      1. 分类
        1. 绝对多数: 未过半可拒绝投票
        2. 相对多数: 最多的标记,多个最多则任选
        3. 加权
      2. 使用类概率一般好于类标记
    3. 学习法
      1. 思路:初级学习器+ 次级学习器
      2. 代表:stacking
      3. 特点:鲁棒 不敏感

  1. 误差-分歧分解
    1. 形式: E= E ˉ − A ˉ \bar{E}-\bar{A} Eˉ−Aˉ 误差-分歧
    2. 不能作为优化目标的原因
      1. 定义在整个样本空间
      2. 构造完模型后才能取得

  1. 多样性度量: 关注个体学习器的相似性
    1. 指标:
      1. 相关系数
      2. Q统计量
      3. K统计量

  1. k-误差图
    1. 点云高:准确度低
    2. 点云靠右: 多样性低

  1. 多样性的增强方法
    1. 数据扰动
      1. 适用: 不稳定的基学习器(树 神经网络)
    2. 属性扰动
      1. 适用:稳定的基学习器(SVM 贝叶斯 线性)
    3. 输出扰动
      1. 改标记
      2. 转化输出
      3. 拆解
      4. 强制算法参数

标签:集成,知识点,加权,ML21,个体,学习,扰动,生成
来源: https://blog.csdn.net/roswellnotfound/article/details/122193458