机器学习(周志华)学习笔记(一)
作者:互联网
目录
学习教材
- 机器学习(周志华)
学习内容
一、绪论
1.1 基本术语
数据集:
示例:关于一个事件或对象的描述。(Xi)
特征向量:
样本的维数:用于描述一个样本的属性个数。
标记:关于示例结果的信息。(Yi)
样例:标记信息的示例。
聚类:将训练集分成若干组。
泛化能力:学得模型适用于新样本得能力。
分类任务与回归任务的区别:分类任务用于预测离散值,回归任务用于预测连续值。
监督学习和无监督学习的区别:训练数据是否拥有标记信息。其中分类和回归是监督学习的代表,聚类是无监督学习的代表。
1.2 假设空间
归纳:从具体事实中归结出一般性规律,从特殊到一般的“泛化”过程。
演绎:从基础原理推演出具体状况,从一般到特殊的“特化”过程。
1.3 归纳偏好
(归纳)偏好:机器学习算法在学习过程中对某种类型假设的偏好。
奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选择最简单的那个。
NFL定理:所有学习算法在考虑所有潜在的问题时的期望值都相同。
二、 模型评估与选择
2.1 经验误差
错误率:分类错误的样本数占样本总数的比例。
精度=1-错误率。
误差:学习器的实际预测输出与样本的真实输出之间的差异。
训练误差/经验误差:学习器在训练集上的误差。
泛化误差:在新样本上的误差。
2.2 评估方法
留出法:直接将数据集划分为两个互斥的集合。通常采用“分层采样”
交叉验证法:先将数据集划分为k个大小相似的互斥子集(从数据集中分层采样得到)。每用k-1个子集的并集作为训练集,余下的子集作为测试集,从而进行k次训练和测试,最终返回k个测试结果的均值。k最常用的取值是10。
留一法:m个样本划分为m个子集——每个子集包含一个样本。 评估结果比较准确,但在数据集较大时,计算量非常大。
验证集:模型评估与选择中用于评估测试的数据集。(同一算法不同模型对比)
测试集:对比不同算法的泛化性能。(不同算法对比)
2.3 性能度量
回归任务红最常用的性能度量是均方误差。
P-R图:以查准率作为纵轴,查全率作为横轴做出的图。其中若一个学习器的P-R曲线被另一个学习器的曲线完全包住,则可断言后者的性能优于前者。当两个曲线有交叉时:平衡点(BEP)度量:利用平衡点对应的查全率进行比较;F1度量:根据对查准率和查全率的而重视程度不同而用的度量方法。
ROC曲线:真正例率(TPR)为纵轴,假正例率(FPR)为横轴。
* TP:真正例 FN:假反例 FP:假正例 TN:真反例
2.4 方差与偏差
以回归任务为例子:
偏差:期望输出与真是标记的差别。刻画了学习算法本身的拟合能力。
方差:同样训练集的变动造成学习性能的变化。刻画了数据扰动所造成的影响。
噪声:当前任务上任何学习算法所能达到的期望泛化误差的下限。刻画的学习本身的难度。
泛化误差可分解为偏差、方差和噪声之和。
学习时间
14.30-15:53
标签:周志华,误差,泛化,样本,笔记,学习,算法,度量 来源: https://blog.csdn.net/coral_55u/article/details/123594500