其他分享
首页 > 其他分享> > 第一次笔记

第一次笔记

作者:互联网

在开始学习之前,我心中就有疑问,什么是学习机器学习,为什么要学,学会了能做些什么。我觉得这是一个好的现象,因为抱着问题去学习,我的目的性会很强。抱着这样的疑惑开始了这次组队学习。

西瓜书和南瓜书,看似简单的名称,其实是为了掩盖了它其中蕴藏的知识,我以为它将是一本解答我问题的书,没曾想疑惑变得更多。
机器学习是什么倒是理解了,根据挑选西瓜的例子得知,用经验之谈来得到新的决策,这是一种学习,“计算机科学是研究关于"算法"的学问,那么类似的,可以说机器学习是研究关于"学习算法"的学问。”机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

第一章的内容便是在打开这扇大门,往里走的开端。无论是对数据的一系列介绍,还是打开空间,引出泛化,都是刚刚开始需要接触的基本术语。

第二章开始就有了新的好玩的东西出现。生动地解释了过拟合和欠拟合的概念,根据学习能力的强弱来划分。对学习器泛化误差评估方法,提出了留出法,交叉验证法,自助法,调参与最终模型。而对泛化误差衡量的标准,则通过性能度量来评估。错误率和精度虽然常用但不能满足所有任务的需求。如对于“挑出的西瓜有多少比例是好瓜”,“所有好瓜中有多少比例被挑出来了”,“检索出的信息有多少比例是用户感兴趣的”,“用户感兴趣的有多少被检索出来的了”等任务,错误率显然无法满足需求,需要其他的性能度量。查全率(recall)和查准率(precision)是更为适用于此类需求的性能度量。书中在2.3.2到2.4讲述了一些曲线,如p-R曲线,ROC,AUC还有代价曲线,最后的2.5中方差与偏差是解释学习算法泛化性能的一种重要工具。具体操作是将学习算法的期望泛化错误率进行拆解,最后得出结论,泛化误差=方差+偏差+噪声。

标签:泛化,错误率,性能,第一次,学习,算法,笔记,度量
来源: https://blog.csdn.net/l_lzl_l/article/details/120729773