其他分享
首页 > 其他分享> > 【机器学习】入门笔记系列 | 西瓜书(一)待续...

【机器学习】入门笔记系列 | 西瓜书(一)待续...

作者:互联网

机器学习

基本概念

定义:机器学习是通过大量数据来构建“模型”,在面对新情况时,模型将会给出相应的判断(即学习算法)。

举例一个日常例子:人们买西瓜之前都想自己随手挑的西瓜是好瓜。除了靠运气之外,我们可以搜集大量西瓜的数据,比如色泽 ;根蒂 ;敲声等指标。大家总结经验,发现:色泽是青绿;根蒂是蜷缩;敲声是浊响,一般有这三种特征的西瓜一般都是好瓜。

这些西瓜就是“训练数据集”,这些经验就是学习产生模型。当下次看到一个没剖开的瓜时,通过经验判断它是哪种瓜 (用模型判断)。

基本术语

属性:反映事件或对象在某方面的表现或性质的事项。例如每条记录中的“色泽”、“根蒂”、“敲声”就是西瓜的属性。(与java中类的属性类似)

属性空间:属性张成的空间。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间

特征向量:每个西瓜都可在这个三维空间中找到自己的坐标位置。 这个点对应的一个坐标就是一个特征向量。

三者的关系总结:将每个属性作为一个坐标轴,多个属性就多个坐标轴,从而形成一个描述物体的属性空间。此空间中的每个样本对应一个点,每个点都有一个坐标向量,把这个坐标向量称为特征向量。

如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的具体模型,,我们还需获得训练样本的"结果"信息,例如色泽是青绿;根蒂是蜷缩;敲声是浊响即好瓜 。

标记:关于“结果”的信息,比如上面的“好瓜”

样例:拥有了标记的示例,则称为样例。一般地,用 (x_i,y_i) 表示第 i 个样例,其中 x_i 是特征向量,y_i 是这个样本的标记。

机器学习的目标是希望通过对训练集 { (x_1,y_1) ,(x_2,y_2) ,..., (x_m,y_m)} 进行学习,建立一个从输入空间 X 到输出空间 Y 的映射 f: X\rightarrow Y

 

假设空间与版本空间

假设空间:所有假设构成的集合。如(色泽=浅自;根蒂=硬挺;敲声=清脆)

版本空间:只保留了假设空间中与训练数据集中正例一致的一部分假设,由这些正确的假设构成的集合成为版本空间 。

版本空间构建过程:首先对假设空间进行搜索。   有许多策略对假设空间搜索,如自顶向下和自底向上。然后在搜索过程中只保留与训练集正例一致的假设。 比如搜索到(色泽=青绿,根蒂=非蜷缩,敲声=浊响)这个假设时,它本身与训练集第 1 条正例色泽是青绿一致,但是与训练集中第 2 条正例根蒂是非蜷缩不一致,所以需要剔除。  色泽 属性除了取值青绿或浅白,还可能取别的值都可以。取值处我们可以用通配符*表示。 如 色泽=*

 

标签:待续,...,西瓜,敲声,入门,色泽,根蒂,空间,属性
来源: https://www.cnblogs.com/yizhizhangBlog/p/16379508.html