机器学习01-----模型评估与选择
作者:互联网
一、经验误差与过拟合
- 错误率:分类错误的样本占总样本的比例
- 精度:1 - 错误率
- 误差:学习器的实际预测输出与样本的真实输出之间的差异
- 训练误差:学习器在训练集上的误差
- 泛化误差:在新样本上的误差
- 过拟合:学习器把训练的样本学习的“太好”率的时候,很可能已经把训练样本的本身的一些特点作为率潜在的样本都会具有的一般性质。这样会导致泛化能力下降。
- 欠拟合:对训练样本的一般性质尚未学好
注:过拟合最常见的是由于学习的能力过于强大,以至于把训练样本所包含的不太一般的性质都学到的了。欠拟合通常是由学习能力地下而造成的。过拟合是无法避免的。
过拟合和欠拟合的类似对比:
二、评估方法
- 对学习器的泛化误差进行评估和选择的我们需要一个“测试集”来测试学习器对于新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似,测试集应该尽可能的与训练集互斥。
- 留出法:直接将数据集D划分为2个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D = S 并 T,S 交 T 为空。在S上训练出模型后,用T来评估其测试误差。
需要注意是训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分引入额外的偏差对最终结果产生影响。保留类别比例的采样方式通常称为“分层采样”。使用留出法时一般采用若干次随机划分,重复进行实验评估后取平均值作为留出法的评估结果。 - 交叉验证法:先将数据集D划分为k个大小相似的互斥子集,即D为所有子集的并集,任何一个子集的交集为空集。每个子集都尽可能保持数据分布的一致性(即从D中通过分层采样得到),每次使用k - 1 个子集的并集作为训练集,余下的那个子集作为测试集。很显然,交叉验证评估法的稳定性和保真性很大程度上取决于k的取值(通常也叫k折交叉验证)示意图如下:
- 自助法:他直接以自助采样法为基础,给定包含m个样本的数据集D,我们对他进行采样产生数据集D’,每次随机的从D中挑选出一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下一次采样中仍然有可能北采样到。这个过程重复执行m次,我们就得到了包含m个样本的数据集D’。(很显然,D中的有一部分样本会在D’中重复出现,而另一部分样本不会出现)。
自助法在数据集较小,难以有效的划分训练/测试集时很有用,此外,自助法可以从初始数据集中产生多个不同的训练集,这对于集成学习等方法有很大帮助。
三、性能度量
-
回归任务最常用的性能度量是“均方误差”
-
更一般的,对于数据分布D和概率密度函数p(),均方误差可描述为:
-
错误率定义为:
-
精度则定义为:
-
更一般的,对于数据分布D和概率密度函数p(),错误率和精度可分别描述为:
-
查准率、查全率和F1
查准率P和查全率R分别定义为:
查准率和查全率是一对矛盾的度量,一般来说,查准率高的,查全率往往偏低;而查全率高的时候,查准率往往偏低。以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称为“P-R曲线”,如下例子:
若一个学习器的P-R曲线被另一个学习器的曲线完全包住,则可断言后者的性能优于前者。
“平衡点”它是查准率=查全率时的取值。更常用的F1度量,定义如下:
F1度量的一般形式–Fp(F贝塔)形式如下:
p(代表贝塔)>0度量了查全率对查准率的相对重要性,p=1的时候退化为F1,p>1时查全率有更大的影响,p<1时查准率有更大的影响。 -
ROC和AUC
ROC全称为“受试者工作特征”。我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要的值,分别以他们的横、纵坐标作图,就得到了“ROC曲线”。ROC曲线的纵轴是“真正例率”,横轴为“假正例率”,两者分别定义为:
ROC图进行比较时和P-R图相似。比较ROC曲线下的面积,即“AUC”。AUC和通过对ROC曲线下各个部分的面积进行求和而得。
-
代价矩阵
四、比较检验
- 机器学习中性能比较涉及到的重要因素
1、我们希望比较的是泛化能力,然而通过实验评估方法我们获得的是测试集上的性能,两者对比的结果可能未必相同。
2、测试集上的性能和预测集本身的选择有很大的关系
3、很多机器学习算法本有有一定的随机性 - 假设检验:假设检验中的“假设”是对学习器泛化错误率分布的某种猜想和判断
- 交叉验证t检验(后期完善)
- McNemar检验(后期完善)
- Friedman检验和Nemenyi检验(后期完善)
五、偏差和方差
偏差-方差分解试图对学习算法的期望泛化错误率进行拆解
- 期望输出与真实标记的差别称为偏差
- 使用样本相同的不同训练集产生的方差:
偏差:度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差下界,即刻画了学习问题本身的难度
偏差-方差分解说明,泛化性能是由算法的能力,数据的充分性以及学习任务本身的难度所共同决定的
六、总结
本结整合了西瓜书第二章的一些基本概念,第二章里面的公式推到先不进行了(能力有限),后面机器学习算法可以推到的会把完整的推到过程写在上面
如有错误,欢迎指正!!!
参考:
- 机器学习周志华
标签:误差,01,泛化,样本,学习,查全率,-----,评估,查准率 来源: https://blog.csdn.net/qq_44761250/article/details/115185120