其他分享
首页 > 其他分享> > Datawhale 吃瓜教程 Task01打卡

Datawhale 吃瓜教程 Task01打卡

作者:互联网

Datawhale 吃瓜教程 Task01打卡

感觉西瓜书蛮新手友好的,前两章都是在不厌其烦的介绍基础概念。

数据集就是我们要让机器学习的东西,希望机器能从中学习到“经验”,产生模型,从而在面对新情况(数据集以外的数据)也能做出有效的判断与决策。

过拟合与欠拟合

机器学习学到的其实是数据中的某种潜在规律,也就是说对于训练模型使用的训练集越大越好,越全越好。并且训练得到的模型并不是说在训练样本上效果好就代表我们得到了一个效果非常好的模型了,因为这可能意味着过拟合

当模型在训练集表现的特别好时,需要注意是否有过拟合问题

过拟合的意思是说模型的学习能力过于强大,以至于把训练样本中所包含的不太一般的特性都学到了。比如因为训练样本全是锯齿状树叶,导致模型错误的认为所有的树叶都得是锯齿形状,其他形状的树叶都一律判断为非树叶。

所以我们的测试样本要尽可能的不出现在训练集中,这样能够测试模型的泛化能力。

泛化指的是训练好的模型在前所未见的数据上的效果的好坏

与过拟合相反的是欠拟合——学习能力过于低下,连样本的一般特性都无法学到。

相较于过拟合而言,欠拟合的问题比较容易解决,例如在神经网络学习中增加训练轮数,在决策树学习中扩展分支。而过拟合无法被彻底避免,因为我们无法完全控制模型学习到的特征。

模型评估方法

评估模型通常需要一个测试集来测试模型对新样本的判别能力。并且测试样本要尽可能的不出现在训练集中,因为再去考机器它之前做过的“题”,无法反应出它的泛化能力

测试集的划分

流出法

交差验证法

自助法

性能度量

标签:训练,模型,样本,Datawhale,测试,拟合,Task01,打卡,数据
来源: https://www.cnblogs.com/AD-milk/p/16372924.html