第一课 机器学习基本概念
作者:互联网
文章目录
- 一、机器学习分类
- 监督学习:分类与回归
- 无监督学习:聚类与降维
- 二、机器学习常见术语
一、机器学习分类
机器学习主要分为监督学习和无监督学习,监督学习中数据有标注,可供学习,无监督学习中数据没有标注。
1.监督学习
对于监督学习,如果预测的结果是连续性的,则问题属于回归问题;如果预测的值是离散的,则问题属于分类问题。
2.无监督学习
无监督学习中典型的例子的是聚类,聚类的目的是根据样本的特点把相似的东西放在一起,聚类区别于分类的一点是:聚类并不关心所分的类是什么,而分类是根据样本标注进行分类。
二、机器学习常见名词
1、泛化能力(generalization ability)简单来说就是学习算法学以致用的能力,也就是当样本的一些数据不在机器学习训练队列中,也可以很好的预测样本。
2、过拟合是指模型过度的拟合了训练集,而不能很好的拟合其他数据集。
过拟合的解决方案:①正则化处理 ②获取更多的数据 ③交叉验证
3、欠拟合是指模型没有更好地捕捉到数据的特征,不能很好地拟合数据。欠拟合的表现为其在训练集表现较差,在测试集同样较差。
欠拟合的解决方案:①使用更复杂更精确的模型 ②减少正则化程度
4、交叉验证
交叉验证是用来验证分类器性能的一种统计分析方法,基本思想是将原始数据进行分组,一部分作为训练集(training set),另一部分作为验证集(validation set),训练集用于对模型进行训练,得出模型的参数,而验证集则用于模型的验证,以此来作为评价模型的性能指标。
5、性能度量
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、 假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+ FP+TN + FN =样例总数。分类结果的“混淆矩阵”(confusion matrix)如表
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP | FN |
反例 | FP | TN |
查准率P(precision),即预测为正例的有多少实际为正例,公式如下:
查全率R(recall),即实际的正例有多少被预测出来了,公式如下:
注:查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称" P-R 曲线":
一般来说,若一个学习器的P-R 曲线被另一个学习器的曲线完全"包住" , 则可断言
后者的性能优于前者,如图中学习器A的性能优于学习器C;如果两个学习其的P-R曲线发生了交叉,则难于判断两个学习器性能的好坏。这时一个比较合理的判据是比较P-R曲线下面积的大小。有时还看“平衡点”(BEP)的大小,它是“查准率”=“查全率”时的取值。
但BEP 还是过于简化了些,更常用的是F1 度量:
5、偏差于方差
对学习算法除了通过实验估计其泛化性能?人们往往还希望了解它“为什么”具有这样的性能。“偏差方差分解” (bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。
训练数据集的损失与一般化的数据集的损失之间的差异叫做泛化误差(generalization error)。泛化误差可以分解为偏差(Biase)、方差(Variance)和噪声(Noise)
- 偏差是用所有训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。
- 方差是不同的训练集训练出的模型输出值之间的差异。
- 噪声是算法所无法解决的问题。数据的质量决定了学习的上限,算法能做的就是尽可能的接近这个上限。
标签:机器,训练,查全率,学习,第一课,监督,拟合,基本概念,查准率 来源: https://blog.csdn.net/weixin_45915668/article/details/120427398