其他分享
首页 > 其他分享> > 机器学习基本概念

机器学习基本概念

作者:互联网

1. 机器学习的定义

[Mitchell, 1997]对机器学习给出了一个形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

2. 机器学习的基本概念

  1. 特征向量(feature vector):特征向量是样本的特征属性的集合。
  2. 标记(label):标记是一个模型要输出的目标。
  3. 维数(dimensionality):维数代表数据特征向量的维度。
  4. 样本空间(sample space):样本空间代表某个问题的所有可能性的集合。
  5. 训练样本(training sample):训练样本是一条用来训练的数据,包括一些用来输入的特征向量和一个输出的标记。
  6. 训练集(training set):训练集是一个包含多条训练样本的集合。
  7. 测试样本(testing sample):测试样本和训练样本类似,不过测试样本是用来测试用的。
  8. 测试集(testing set):测试集是一个包含多条测试样本的集合。
  9. 训练(training):训练是通过训练数据,模型进行学习的过程。
  10. 测试(testing):测试是用来评判模型好坏的过程。
  11. 预测(prediction):预测是用来使用模型对未见过的数据进行分类或回归的过程。
  12. 监督学习(supervised learning):监督学习是带有标记的问题。
  13. 无监督学习(unsupervised learning):无监督学习是不带有标记的问题。
  14. 分类(classification):标签值只有有限个类别的问题。
  15. 回归(regression):标签值有无限个值的问题。
  16. 分布(distribution):所有的样本都是服从自己的一种未知分布,我们的任务是采样的时候尽量让训练样本分布和未知分布相同,这样训练出来的模型才会有比较好的泛化能力。
  17. 独立同分布(iid,independent and identically distributed):指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布

3. 基本原则

标签:机器,特征向量,训练,样本,学习,测试,训练样本,基本概念
来源: https://blog.51cto.com/u_7605937/2704571