首页 > 其他分享> > 机器学习（西瓜书）学习笔记一

机器学习（西瓜书）学习笔记一

2021-04-08 09:02:27 作者：互联网

机器学习：利用“数据”作为“经验”形式，让计算机在计算数据时产生 “模型”，然后根据得到的“经验”模型来对新的情况作出判断。

基本术语

样本：记录中对一个事件或对象的描述

数据集：一组记录的集合

属性:反映时间或对象在某方面的表现或性质

样本空间：所有属性组成的空间

例如：色泽青绿、根蒂蜷缩、声音浊响的西瓜

其中（色泽青绿、根蒂蜷缩、敲声浊响）是一条记录，这条记录中描述西瓜的内容为一个样本；色泽、根蒂、敲声为西瓜的属性，青绿、蜷缩、浊响为各属性对应的属性值；三种属性组成描述西瓜的三维样本空间，映射到空间中的坐标向量为其特征向量。

训练数据：用于模型训练的数据

测试数据：使用模型进行预测的数据

机器学习两大类：监督学习与无监督学习，其中监督学习包括分类和回归，无监督学习包括聚类。

“泛化”能力：学得的模型适用于新样本的能力，具有强泛化能力的模型可较好的用于整个样本空间

独立同分布：样本空间中全体样本服从同一个未知分布，且各个样本之间是独立的

布尔值：0/1，即“是”或“不是”

假设空间：由判断事物的可能取值所形成的假设组成。例如西瓜的色泽可能有“青绿”“乌黑”“浅白”以及任意值都行四种情况。特别注意“取什么都合适”这种可能。同时计算假设空间时还应考虑一种极端情况。

版本空间：存在着一个与训练集一致的“假设集合”。

“奥卡姆剃刀”原则：若有多个假设与观察一致，则选择最简单的那个。

归纳偏好：是对应于“选择什么样的模型更好”的假设，根据NFL定理（No Free Lunch Theorem,没有免费的午餐）得到：理想状态下不同学习算法的期望值相同，因此在算法选择时，要结合具体的问题，考虑算法自身的归纳偏好与问题是否相配，具体问题具体分析。

发展历程

1950年，图灵提出机器学习的可能

二十世纪五十年代，A.Samuel的跳棋程序

五十年代中后期，出现基于神经网络的学习，代表有F.Rosenblatt的感知机

六七十年代，基于逻辑表示的“符号主义”发展起来，代表有P.Winsto

n的“结构学习系统”、R.S.Michalski的“基于逻辑的归纳学习系统”。

八十年代，决策树与基于逻辑的学习

1986年，D.E.Rumelhart等人提出BP算法

九十年代中期，“统计学习”出现，代表有支持向量机

二十一世纪初，深度学习

应用现状

1、天气预报、能源勘探以及环境监测

2、商业营销中客户分析制定营销策略

3、互联网智能推荐系统

4、自动驾驶

5、图像处理，网络安全

标签：西瓜,假设,模型,笔记,学习,样本空间,属性
来源： https://blog.51cto.com/15057858/2691629