机器学习(西瓜书)学习笔记一
作者:互联网
机器学习:利用“数据”作为“经验”形式,让计算机在计算数据时产生 “模型”,然后根据得到的“经验”模型来对新的情况作出判断。
基本术语
样本:记录中对一个事件或对象的描述
数据集:一组记录的集合
属性:反映时间或对象在某方面的表现或性质
样本空间:所有属性组成的空间
例如:色泽青绿、根蒂蜷缩、声音浊响的西瓜
其中(色泽青绿、根蒂蜷缩、敲声浊响)是一条记录,这条记录中描述西瓜的内容为一个样本;色泽、根蒂、敲声为西瓜的属性,青绿、蜷缩、浊响为各属性对应的属性值;三种属性组成描述西瓜的三维样本空间,映射到空间中的坐标向量为其特征向量。
训练数据:用于模型训练的数据
测试数据:使用模型进行预测的数据
机器学习两大类:监督学习与无监督学习,其中监督学习包括分类和回归,无监督学习包括聚类。
“泛化”能力:学得的模型适用于新样本的能力,具有强泛化能力的模型可较好的用于整个样本空间
独立同分布:样本空间中全体样本服从同一个未知分布,且各个样本之间是独立的
布尔值:0/1,即“是”或“不是”
假设空间:由判断事物的可能取值所形成的假设组成。例如西瓜的色泽可能有“青绿”“乌黑”“浅白”以及任意值都行四种情况。特别注意“取什么都合适”这种可能。同时计算假设空间时还应考虑一种极端情况。
版本空间:存在着一个与训练集一致的“假设集合”。
“奥卡姆剃刀”原则:若有多个假设与观察一致,则选择最简单的那个。
归纳偏好:是对应于“选择什么样的模型更好”的假设,根据NFL定理(No Free Lunch Theorem,没有免费的午餐)得到:理想状态下不同学习算法的期望值相同,因此在算法选择时,要结合具体的问题,考虑算法自身的归纳偏好与问题是否相配,具体问题具体分析。
发展历程
1950年,图灵提出机器学习的可能
二十世纪五十年代,A.Samuel的跳棋程序
五十年代中后期,出现基于神经网络的学习,代表有F.Rosenblatt的感知机
六七十年代,基于逻辑表示的“符号主义”发展起来,代表有P.Winsto
n的“结构学习系统”、R.S.Michalski的“基于逻辑的归纳学习系统”。
八十年代,决策树与基于逻辑的学习
1986年,D.E.Rumelhart等人提出BP算法
九十年代中期,“统计学习”出现,代表有支持向量机
二十一世纪初,深度学习
应用现状
1、天气预报、能源勘探以及环境监测
2、商业营销中客户分析制定营销策略
3、互联网智能推荐系统
4、自动驾驶
5、图像处理,网络安全
标签:西瓜,假设,模型,笔记,学习,样本空间,属性 来源: https://blog.51cto.com/15057858/2691629