【机器学习】入门笔记系列 | 西瓜书(一)待续...
作者:互联网
机器学习
基本概念
定义:机器学习是通过大量数据来构建“模型”,在面对新情况时,模型将会给出相应的判断(即学习算法)。
举例一个日常例子:人们买西瓜之前都想自己随手挑的西瓜是好瓜。除了靠运气之外,我们可以搜集大量西瓜的数据,比如色泽 ;根蒂 ;敲声等指标。大家总结经验,发现:色泽是青绿;根蒂是蜷缩;敲声是浊响,一般有这三种特征的西瓜一般都是好瓜。
这些西瓜就是“训练数据集”,这些经验就是学习产生模型。当下次看到一个没剖开的瓜时,通过经验判断它是哪种瓜 (用模型判断)。
基本术语
属性:反映事件或对象在某方面的表现或性质的事项。例如每条记录中的“色泽”、“根蒂”、“敲声”就是西瓜的属性。(与java中类的属性类似)
属性空间:属性张成的空间。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间
特征向量:每个西瓜都可在这个三维空间中找到自己的坐标位置。 这个点对应的一个坐标就是一个特征向量。
三者的关系总结:将每个属性作为一个坐标轴,多个属性就多个坐标轴,从而形成一个描述物体的属性空间。此空间中的每个样本对应一个点,每个点都有一个坐标向量,把这个坐标向量称为特征向量。如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的具体模型,,我们还需获得训练样本的"结果"信息,例如色泽是青绿;根蒂是蜷缩;敲声是浊响即好瓜 。
标记:关于“结果”的信息,比如上面的“好瓜”
样例:拥有了标记的示例,则称为样例。一般地,用 表示第 i 个样例,其中 是特征向量, 是这个样本的标记。
机器学习的目标是希望通过对训练集 { } 进行学习,建立一个从输入空间 X 到输出空间 Y 的映射
假设空间与版本空间
假设空间:所有假设构成的集合。如(色泽=浅自;根蒂=硬挺;敲声=清脆)
版本空间:只保留了假设空间中与训练数据集中正例一致的一部分假设,由这些正确的假设构成的集合成为版本空间 。
版本空间构建过程:首先对假设空间进行搜索。 有许多策略对假设空间搜索,如自顶向下和自底向上。然后在搜索过程中只保留与训练集正例一致的假设。 比如搜索到(色泽=青绿,根蒂=非蜷缩,敲声=浊响)这个假设时,它本身与训练集第 1 条正例色泽是青绿一致,但是与训练集中第 2 条正例根蒂是非蜷缩不一致,所以需要剔除。 色泽 属性除了取值青绿或浅白,还可能取别的值都可以。取值处我们可以用通配符*表示。 如 色泽=*标签:待续,...,西瓜,敲声,入门,色泽,根蒂,空间,属性 来源: https://www.cnblogs.com/yizhizhangBlog/p/16379508.html