机器学习
作者:互联网
特征向量:以样本属性作为每个向量的各个轴,有几个属性就有几维。(如描述学生:特征向量为身高体重二位的。)
属性:其中身高体重就是两个属性。
模型一般分为:分类,回归,聚类(不知道有几类,机器自己分)
一般流程就是拿到数据模型,通过某种学习算法处理得到一个模型,输入新的数据进行预测。(预测中的泛化能力:机器学习算法对新鲜样本的适应能力。就是说对没见过的数据预测的能力)
假设空间:就是从输入到输出的所有映射的集合。比如说,身高:高矮,体重:胖瘦。定义为身材较好就是高胖,高瘦。不好就是碍手矮胖。输出一共两个值(即两个定义身材好或不好),输入一共是四种组合(高胖高瘦矮胖矮瘦),每种组合都有两个值供选择(即输出值的个数,身材好和身材不好),则一共是2的4次方钟假设,(例如我其中一个假设是高胖高瘦就是身材好,矮胖就是身材不好)这么多假设就构成了一个假设空间。(给每个组合确定一个输出,每个输出两种,总共需要断定四个输入组合)
当同一个数据集训练出了不同的模型,要使用简单的那个。即奥卡姆剃刀。
k折交叉验证:举个例子十折交叉验证,就是训练集和测试集总共被分成十份,其中第一份做测试集,第二到第十是训练集,做第一次训练和测试;然后第二份做测试,第一份和所剩下的做训练,做第二次训练,依次类推做十次。数据集小的时候比较有用。
测试集还有一种自助法:就是对样本开始抽,又放回,抽出的作为训练集,没抽出的作为测试集,样本量趋于无穷的时候没抽出的大概占1/e(0.368)
验证集: 训练集-----------学生的课本;学生 根据课本里的内容来掌握知识。
验证集------------作业,通过作业可以知道 不同学生学习情况、进步的速度快慢。
测试集-----------考试,考的题是平常都没有见过,考察学生举一反三的能力。
标签:输出,机器,训练,假设,高瘦,学习,身材,测试 来源: https://www.cnblogs.com/headdag/p/15759251.html