其他分享
首页 > 其他分享> > 机器学习(西瓜书)学习笔记一

机器学习(西瓜书)学习笔记一

作者:互联网

机器学习:利用“数据”作为“经验”形式,让计算机在计算数据时产生 “模型”,然后根据得到的“经验”模型来对新的情况作出判断。

基本术语

样本:记录中对一个事件或对象的描述

数据集:一组记录的集合

属性:反映时间或对象在某方面的表现或性质

样本空间:所有属性组成的空间

例如:色泽青绿、根蒂蜷缩、声音浊响的西瓜

其中(色泽青绿、根蒂蜷缩、敲声浊响)是一条记录,这条记录中描述西瓜的内容为一个样本;色泽、根蒂、敲声为西瓜的属性,青绿、蜷缩、浊响为各属性对应的属性值;三种属性组成描述西瓜的三维样本空间,映射到空间中的坐标向量为其特征向量。

训练数据:用于模型训练的数据

测试数据:使用模型进行预测的数据

机器学习两大类:监督学习与无监督学习,其中监督学习包括分类和回归,无监督学习包括聚类。

“泛化”能力:学得的模型适用于新样本的能力,具有强泛化能力的模型可较好的用于整个样本空间

独立同分布:样本空间中全体样本服从同一个未知分布,且各个样本之间是独立的

布尔值:0/1,即“是”或“不是”

假设空间:由判断事物的可能取值所形成的假设组成。例如西瓜的色泽可能有“青绿”“乌黑”“浅白”以及任意值都行四种情况。特别注意“取什么都合适”这种可能。同时计算假设空间时还应考虑一种极端情况。

版本空间:存在着一个与训练集一致的“假设集合”。

“奥卡姆剃刀”原则:若有多个假设与观察一致,则选择最简单的那个。

归纳偏好:是对应于“选择什么样的模型更好”的假设,根据NFL定理(No Free Lunch Theorem,没有免费的午餐)得到:理想状态下不同学习算法的期望值相同,因此在算法选择时,要结合具体的问题,考虑算法自身的归纳偏好与问题是否相配,具体问题具体分析。

发展历程

1950年,图灵提出机器学习的可能

二十世纪五十年代,A.Samuel的跳棋程序

五十年代中后期,出现基于神经网络的学习,代表有F.Rosenblatt的感知机

六七十年代,基于逻辑表示的“符号主义”发展起来,代表有P.Winsto

n的“结构学习系统”、R.S.Michalski的“基于逻辑的归纳学习系统”。

八十年代,决策树与基于逻辑的学习

1986年,D.E.Rumelhart等人提出BP算法

九十年代中期,“统计学习”出现,代表有支持向量机

二十一世纪初,深度学习

应用现状

1、天气预报、能源勘探以及环境监测

2、商业营销中客户分析制定营销策略

3、互联网智能推荐系统

4、自动驾驶

5、图像处理,网络安全


标签:西瓜,假设,模型,笔记,学习,样本空间,属性
来源: https://blog.51cto.com/15057858/2691629