机器学习基本概念
作者:互联网
1. 机器学习的定义
[Mitchell, 1997]对机器学习给出了一个形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
2. 机器学习的基本概念
- 特征向量(feature vector):特征向量是样本的特征属性的集合。
- 标记(label):标记是一个模型要输出的目标。
- 维数(dimensionality):维数代表数据特征向量的维度。
- 样本空间(sample space):样本空间代表某个问题的所有可能性的集合。
- 训练样本(training sample):训练样本是一条用来训练的数据,包括一些用来输入的特征向量和一个输出的标记。
- 训练集(training set):训练集是一个包含多条训练样本的集合。
- 测试样本(testing sample):测试样本和训练样本类似,不过测试样本是用来测试用的。
- 测试集(testing set):测试集是一个包含多条测试样本的集合。
- 训练(training):训练是通过训练数据,模型进行学习的过程。
- 测试(testing):测试是用来评判模型好坏的过程。
- 预测(prediction):预测是用来使用模型对未见过的数据进行分类或回归的过程。
- 监督学习(supervised learning):监督学习是带有标记的问题。
- 无监督学习(unsupervised learning):无监督学习是不带有标记的问题。
- 分类(classification):标签值只有有限个类别的问题。
- 回归(regression):标签值有无限个值的问题。
- 分布(distribution):所有的样本都是服从自己的一种未知分布,我们的任务是采样的时候尽量让训练样本分布和未知分布相同,这样训练出来的模型才会有比较好的泛化能力。
- 独立同分布(iid,independent and identically distributed):指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布
3. 基本原则
- 奥卡姆剃刀(Occam’s Razor):若有多个假设与观察一致,则选择最简单的一个。
- 没有免费的午餐(No Free Lunch Theorem, NFL):没有一种算法比随机胡猜的效果好。
- NFL定理意义在于, 脱离具体问题,空范的谈论什么算法更好,没有意义!必须针对具体的学习问题,探讨算法的相对优劣。 学习算法的归纳偏好是否和问题相匹配,往往起到决定性的作用。
标签:机器,特征向量,训练,样本,学习,测试,训练样本,基本概念 来源: https://blog.51cto.com/u_7605937/2704571