其他分享
首页 > 其他分享> > Datawhale学习打卡LeeML-Task03

Datawhale学习打卡LeeML-Task03

作者:互联网

Datawhale学习打卡LeeML-Task03

梯度下降部分请转: Task03-梯度下降
本文档所参考的一些文档

————————————————————-—————————————————————————

误差

误差来源

误差来自于偏差(bias)和方差(variance)
更准确的说:可以分解为三个部分:样本噪音、模型预测值的方差、预测值相对真实值的偏差 E ( ( y − f ^ ( x ) ) 2 ) = σ 2 + Var ⁡ [ f ^ ( x ) ] + ( Bias ⁡ [ f ^ ( x ) ] ) 2 E\left((y-\hat{f}(x))^{2}\right)=\sigma^{2}+\operatorname{Var}[\hat{f}(x)]+(\operatorname{Bias}[\hat{f}(x)])^{2} E((y−f^​(x))2)=σ2+Var[f^​(x)]+(Bias[f^​(x)])2即:误差的期望值 = 噪音的方差 + 模型预测值相对模型期望(方差) + 预测值的期望相对真实值的偏差的平方

样本噪音说明:我们设置真实模型 f ( x ) = x + 2 s i n ( 1.5 x ) f(x) = x + 2sin(1.5x) f(x)=x+2sin(1.5x),样本值 y 就在真实值的基础上叠加一个随机噪音 N(0, 0.2)。即: y = x + 2 sin ⁡ ( 1.5 x ) + N ( 0 , 0.2 ) y=x+2 \sin (1.5 x)+N(0,0.2) y=x+2sin(1.5x)+N(0,0.2) 这样就存在样本噪音了。

解释:类比解释

在这里插入图片描述

靶心(红点)是测试样本的真实值,测试样本的y(橙色点)是真实值加上噪音,特定模型重复多次训练会得到多个具体的模型,每一个具体模型对测试样本进行一次预测,就在靶上打出一个预测值(图上蓝色的点)。

所以,特定模型的预测值 与 真实值 的误差的 期望值,分解为上面公式中的三个部分,对应到图上的三条橙色线段:预测值的偏差、预测值的方差、样本噪音。
在这里插入图片描述

数学证明

具体可见:偏差(Bias)和方差(Variance)——机器学习中的模型选择

—————————————————————————————————————————————

估计变量x的偏差和方差

估计变量x的偏差

估计平均值

在这里插入图片描述

估计变量x的方差

在这里插入图片描述

不同模型的偏差和方差

用相同的模型model,在不同的数据集中找到的f*是不一样的

在这里插入图片描述

考虑不同模型的偏差

黑色是真实的函数 红色是我们找到的5000个函数 ——> 看平均
在这里插入图片描述在这里插入图片描述

考虑不同模型的方差

一次模型的方差就比较小的,也就是是比较集中,离散程度较小。而5次模型的方差就比较大,同理散布比较广,离散程度较大。

所以用比较简单的模型,方差是比较小的(就像射击的时候每次的时候,每次射击的设置都集中在一个比较小的区域内)。如果用了复杂的模型,方差就很大,散布比较开。

这也是因为简单的模型受到不同训练集的影响是比较小的。
在这里插入图片描述

过拟合和欠拟合

在这里插入图片描述

将误差拆分为偏差和方差。简单模型(左边)是偏差比较大造成的误差,这种情况叫做欠拟合,而复杂模型(右边)是方差过大造成的误差,这种情况叫做过拟合。

怎么判断

1. 模型训练训练集不好 ——> Bias偏差大——>欠拟合
	解决方法:resign your model:输入更多的feature、用更复杂的模型

2. 模型很好的训练训练集,即再训练集上得到很小的错误,但在测试集上得到大的错误——>方差过大——>过拟合
	解决方法:1.更多的数据(有效但不实用)2.数据增强 3.正则化(Regularization)

偏差和方差的trade-off (平衡)——模型选择

图中public的测试集是已有的,private是没有的

交叉验证

交叉验证 就是将训练集再分为两部分,一部分作为训练集,一部分作为验证集。

在这里插入图片描述

用训练集训练模型,然后再验证集上比较,确实出最好的模型之后(比如模型3),再用全部的训练集训练模型3,然后再用public的测试集进行测试。
此时一般得到的错误都是大一些的。不过此时会比较想再回去调一下参数,调整模型,让在public的测试集上更好,但不太推荐这样。(不要用测试集)

N-折交叉验证

将训练集分成N份,比如分成3份。分别训练,求误差平均后选择模型,再用全部训练集训练模型1。

在这里插入图片描述

标签:偏差,误差,训练,方差,模型,LeeML,打卡,预测值,Task03
来源: https://blog.csdn.net/weixin_43873591/article/details/122496453