机器学习基本概念和方法三要素
作者:互联网
课程目的
- 懂原理
- 可以使用工具来解决实际问题
- 使用编程语言实现算法
- 提升优化和改进算法的能力
学习目标
- 了解和机器学习相关的概念
- 了解机器学习的实质
- 了解常见的损失函数
- 了解经验风险和结构风险
机器学习的几个基本概念
机器学习方法流程
以监督学习方法为例,(比着例题来做习题)
输入数据——》特征工程《——》模型训练——》模型部署——》模型应用
模型(Models):通过丰富经验形成的处理过程
特征工程(Features):在输入数据的基础上,整理、加工、扩展、合并等等形成的一些新的数据特征。
建模过程是一个反复的过程,需要循环优化。
模型训练达到预期效果后进行部署,投入到实际应用。
注:实际工作过程中,业务、数据都是在动态变化的,所以模型具有时效性,需要在使用过程中进行模型生命周期管理,定期更新。
输入空间与输出空间
- 输入空间:将输入所有可能取值的集合称作输入空间
- 输出空间:将输出的所有可能取值的集合称作输出空间
- 输入空间和输出空间可以是有限元素的集合,也可以是整个欧氏空间
- 输入空间和输出空间可以是连续值集合,也可以是离散值集合
- 输入空间和输出空间可以是同一个空间,也可以是不同空间
- 通常输出空间会比输入空间小
特征空间
特征:即属性。每个输入实力的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。
特征向量:由多个特征组合的集合,称作特征向量
特征空间:将特征向量存在的空间称作特征空间。
- 特征空间中每一维都对应了一个特征(属性)
- 特征空间可以和输入空间相同,也可以不同
- 需将将实例从输入空间映射到特征空间
- 模型实际上是定义于特征空间之上
假设空间
假设空间:由输入空间到输出空间的映射的集合。
- 李航老师《统计学习方法》:模型属于由输入空间到输出空间的隐射集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。
- 周志华《机器学习》:假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找于训练集“匹配”的假设。
针对每一种可能的输入,都能找到一个映射,对应了输出空间中某个输出。
机器学习的实质
大部分的机器学习本质上都是一个最优化问题,也就是寻找模型参数(优化变量),使得损失函数(目标函数)最小,同时为了避免过拟合,加入正则项,也就是约束要优化的参数。深度学习是机器学习的一个分支,它用于分类时,也是一个最优化问题。而一般的最优化问题不容易求解,是因为容易陷入局部最优解,而不能得到全局最优。如果这个最优化问题恰巧是一个凸优化问题,则可以高效地求解出模型最优解,这是因为,根据凸函数的性质,局部最优就是全局最优。
机器学习方法的三要素
机器学习方法通常都是由模型、策略和算法三部分构成:
方法 = 模型 + 策略 + 算法
- 模型:输入空间到输出空间的映射关系。学习过程即为从假设空间中搜索适合当前数据的假设。
- 策略:从假设空间众多的假设中选择到最优的模型的学习标准或规则
- 算法:学习模型的具体的计算方法,同样是求解最优化问题
模型
输入空间到输出空间的映射关系。学习过程即为从假设空间中搜索适合当前数据的假设。
分析当前需要解决的问题,确定模型。
策略
从假设空间众多的假设中选择到最优的模型的学习标准或规则。
要从假设空间中选择一个最合适的模型出来,需要解决以下问题:
- 评估某个模型对单个训练样本的效果
- 评估某个模型对训练集的整体效果
- 评估某个模型对包括训练集、预测集在内的所有数据的整体效果
定义几个指标用来衡量上述的问题:
- 损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等;
- 风险函数:经验风险、期望风险、结构风险
基本策略:
- 经验风险最小(EMR:Empirical Risk Minimization)
- 结构风险最小(SRM:Structural Risk Minimization)
损失函数
损失函数:用来衡量预测结果和真实结果之间的差距,其值越小,代表预测结果和真实结果越一致。通常是一个非负实值函数。通过各种方式缩小损失函数的过程称作优化。损失函数记作L(Y,f(x))
常见的损失函数类型:
-
0-1损失函数(0-1LF):预测值和实际值精确相等则“没有损失”为0,否则意味着“完全损失”,为1。
预测值和实际值精确相等有些过于严格,可以次啊用两者到的差小于某个阈值的方式。
-
绝对值损失函数:预测结果与真实结果差的绝对值。简单易懂,但是计算不方便;
-
平方损失函数:预测结果与真实结果差的平方。
- 平方损失函数优势有:
- 每个样本的误差都是正的,累加不会被抵消;
- 平方对于大误差的惩罚大于小误差
- 数学计算简单、友好,导数为一次函数
- 平方损失函数优势有:
-
对数损失函数(对数似然损失函数):对数函数具有单调性,在求最优化问题时,结果与原始目标一致。可将乘法转化为加法(更简单的计算方法),简化计算:
L(Y,p(Y|X)) = -logP(Y|X)
-
指数损失函数:单调性、非负性的优良性质,使得越接近正确结果误差越小;
-
折叶损失函数:也称铰链损失,对于判定边界附近的点的惩罚力度较高,常用于SVM(支持向量机),
L(f(x)) = max(0,1 - f(x))
-
不同损失函数的曲线也不尽相同
-
不同的损失函数有不同的特点,适用于不同的场景:
- 0-1:理想状态模型
- log:逻辑回归、交叉熵
- Squared:线性回归
- Exponential:AdaBoosting
- Hinge:SVM、soft margin
经验风险和结构风险
经验风险 VS 风险函数
经验风险:损失函数度量了单个样本的预测结果,要想衡量整个训练集的预测值与真实值的差异,将真个训练集所有记录均进行一次预测,求取损失函数,将所有值累加,即为经验风险。经验风险越小说明模型f(x)对训练集的拟合程度越好。
风险函数:又称期望损失、期望风险。所有数据集(包含训练集和预测集,遵循联合分布P(X,Y))的损失函数的期望值。
-
经验风险 vs 期望风险
- 期望封信是模型对全局(所有数据集)的效果;经验风险是模型对局部(训练集)的效果;
- 期望风险往往无法计算,即联合分布P(X,Y)通常是未知的;经验风险可以计算;
- 当训练集足够大时,经验风险可以替代期望风险,即局部最优代替全局最优
-
经验风险的问题:
-
在样本较小时,仅关注经验风险,很容易导致过拟合
*即:在使用样本计算经验风险,对预测集进行预测时,经验风险过于贴合样本集的情况下,对预测集的预测错误率反而更高。得到的这个经验风险只是局部的最优解。
-
解决方法:
结构风险
结构风险:在经验风险的基础上,增加一个正则化项或者叫做惩罚项。
结构风险 vs 经验风险
- 经验风险越小,模型决策函数越复杂,其包含的参数越多
- 当经验风险函数小到一定程度就会出现过拟合现象
- 防止过拟合现象的方式,就要降低决策函数的复杂度,让惩罚项
J(f)
最小化 - 需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化
- 把两个式子融合到一个式子得到结构风险函数然后对这个结构风险函数进行最小化。
正则化项
正则化项:即惩罚函数,该项对模型向量进行惩罚,从而谜面过拟合问题。正则化方法会自动削弱不重要的特征变量,自动从许多的特征变量中“提取”重要的特征变量,减小特征变量的数量级。
总结
-
机器学习的几个基本概念
-
机器学习的实质,
- 输入空间到输出空间的假设空间中搜索到一个假设,选出对当前处理效果最好的假设。
-
机器学习三要素
- 模型:确定什么类的问题
- 策略:怎么评估模型好坏
- 算法:怎么在学习规则要求的范围内优化改进,得到想要的结果
-
经验风险与结构风险
处理三要素中策略的时候使用,实际上判断模型好坏的方法,通常会使用结构风险来评估
- 结构风险和经验风险的区别
- 经验风险仅对模型在测试集上表现结果来做评估,测试集上越好,经验风险越小
- 结构风险兼顾两方面:1.模型在测试集上表现结果良好;2.模型的复杂程度不高,模型越复杂,对后续的预测效果越差,容易过拟合
- 结构风险和经验风险的区别
在学习规则要求的范围内优化改进,得到想要的结果
-
经验风险与结构风险
处理三要素中策略的时候使用,实际上判断模型好坏的方法,通常会使用结构风险来评估
- 结构风险和经验风险的区别
- 经验风险仅对模型在测试集上表现结果来做评估,测试集上越好,经验风险越小
- 结构风险兼顾两方面:1.模型在测试集上表现结果良好;2.模型的复杂程度不高,模型越复杂,对后续的预测效果越差,容易过拟合
- 结构风险和经验风险的区别
标签:风险,经验,机器,函数,模型,三要素,损失,空间,基本概念 来源: https://blog.csdn.net/qq_40127785/article/details/118692059