其他分享
首页 > 其他分享> > 斯坦福机器学习第九讲--经验风险最小化

斯坦福机器学习第九讲--经验风险最小化

作者:互联网

本讲内容
1. Bias/Variance trade-off (偏差-方差权衡)
2. Empirical risk minimization(ERM) (经验风险最小化)
3. Union Bound/ Hoeffding inequality (联合界/霍夫丁不等式)
4. Uniform convergence (一致收敛)
 
1. 偏差方差权衡
 
dark

对于上图左的情况,我们称之为欠拟合(under-fitting),或者说,我们认为算法的偏差很高。高偏差意味着一个事实:即使你有无穷多的训练数据,算法依然不能拟合出数据的内在结构(比如二次结构)
对于上图右的情况,我们称之为过拟合(over-fitting),或者说,我们认为算法的方差很高。高方差意味着一个事实:算法拟合出了数据中的一些奇怪的规律,或者说一些怪异的属性。
 
2. 经验风险最小化 ERM
定义一个线性分类器
dark emoji

其中 dark emoji
 (note dark emoji

假设有m个训练样本,样本之间是独立同分布的。
定义训练误差:
dark Emoji

训练误差也被称为风险。
经验风险最小化: 选择分类器函数的参数,使得分类器的训练误差(training error)最小。
dark emoji

让我们换一种考虑方式:我们不是在选择最优分类器函数的参数,而是在选择最优的分类器函数。
定义假设类 
dark emoji

假设类的每一个成员都是参数n+1个的线性分类器函数。
重新定义ERM:从假设类H中选取一个函数,使得分类器的训练误差最小。
dark emoji

实际上,我们并不关心训练误差的大小,我们关心的是分类器对于未知样本的预测能力,也就是一般误差(generation error):
dark emoji

先引入两条引理:
1.联合界引理(Union Bound):
令 dark emoji
 表示k个事件,这些事件不一定是独立的,
dark emoji

2.Hoeffding 不等式:
假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布,即
dark emoji

dark emoji

并且
 dark Emoji
 
为这些随机变量的均值,给定 dark emoji
,那么有
dark emoji

表达的是对真实分布的估计值与真实分布之间的差值大于 dark emoji
 的概率的上界,这个上界随着m的增加而指数下降。
考虑具有有限假设类的情形:
dark emoji
猜想类H具有k个假设
ERM会从H中选出具有最小训练误差的假设 
dark emoji

需要证明
1. 训练误差是一个对一般误差的很好的近似
2. ERM选择的假设的一般误差存在上界
首先证明第一项,从猜想类H中任意选取一个假设 dark emoji
,定义
dark emoji
服从伯努利分布,因此
dark emoji
其均值是假设的一般误差。
训练误差为
dark emoji

由Hoeffding不等式可知
dark emoji

假设m很大,即训练样本很多,那么训练误差将会以很大概率近似于一般误差。
定义事件 dark emoji
 为  dark emoji
 发生

 dark emoji

那么对于整个猜想类来说
dark emoji

dark emoji
 
dark emoji

两边同时用1减去
dark emoji

dark emoji

dark emoji

也就是说,在不小于 dark emoji
 的概率下,对于猜想类H中的所有假设h,其训练误差和一般误差之间的差距将会在dark emoji
 以内。
这被称为 一致收敛
定义dark emoji

那么给定 dark emoji
 和 dark emoji
 解出 
dark emoji

意思是,只要你的训练集合包含至少上述m这么多的样本,那么概率至少在 dark emoji
 下,有 dark emoji
对H中的所有假设成立。
样本复杂度:为了达到一个特定的错误的界,你需要多大的训练集合。
误差界:
同样的,我们可以固定m和dark Emoji,得到dark emoji

定义dark emoji
为H中具有最小一般误差的假设,dark emoji
 为H中具有最小训练误差的假设,那么至少在 dark emoji
 的概率下,有
dark emoji

dark emoji

dark emoji

dark emoji
 
dark emoji

也就是说,我们选择的(具有最小训练误差的)假设的一般误差,和具有最小一般误差的假设的一般误差之间的差值存在 dark emoji
 的上界。
直观上,我们可以把第一项 dark emoji
 看成是选择假设的偏差,第二项 dark emoji
 看成选择假设的方差。
当我们将H替换为更复杂的猜想类H',即H是H'的子集时,第一项只会变的更小,即偏差变小;而由于k的增大,第二项会变的更大,即方差变大。
将一切总结为两个定理如下: 
dark

dark

第九讲完。

标签:误差,训练,方差,--,假设,斯坦福,分类器,最小化,ERM
来源: https://www.cnblogs.com/-402/p/16504159.html