【统计学习方法】 统计学习及监督学习概论
作者:互联网
统计学习
关于计算机针对数据构建概率统计模型,并通过模型对数据进行分析和预测
统计学习的分类
基本分类:监督学习,无监督学习,强化学习,半监督学习,自主学习
监督学习(superised learning): 从标注数据中学习预测模型,本质是输入到输出的映射的统计规律
无监督学习(unsuperised learning): 从无标注数据中学习预测模型,本质是学习数据中统计规律或潜在结构
强化学习(reinforced learning):指智能系统在与环境的连续互动中学习最优行为策略,本质是学习最优的序贯决策
半监督学习(semi-superised learning): 利用标注数据和未标注数据学习预测模型。 旨在利用未标注数据中的信息, 辅助标注数据, 进行监督学习, 以较低成本达到学习效果
主动学习(active learing): 机器不断给出实例让教师进行标注, 让后利用标注数据学习预测模型。 目标找出对学习最有帮助的实例让教师标注,以较小的标注代价达到学习效果。
按模型分类 : 概率模型/非概率模型,线性模型/非线性模型,参数化模型/非参数化模型
概率模型(probabilistic model)/ 非概率模型(non-probabilistic model):
监督学习中,概率模型取条件概率分布P(y|x)的形式,非概率模型取决策函数y = f(x)的形式;
无监督学习中, 概率模型取条件概率分布P(z|x)或P(x|z)的形式, 非概率模型取决策函数z = g(x)的形式。
概率模型和非概率模型互相转化:
概率模型—>非概率模型:条件概率分布最大化(极大似然估计)
非概率模型—>概率模型:函数归一化
概率模型和非概率模型的区别不在于输入输出的映射关系,而在于模型的内在结构
线性模型(linear model)/ 非线性模型(non-linear model):
函数y=f(x)或z=g(x)为线性函数,则为线性模型;否则为非线性模型。
线性模型:感知机、线性支持向量机、k邻近、k均值、潜在语义分析;
非线性模型: AdaBoost、核函数支持向量机、神经网络。
参数化(parametric model)/ 非参数化(non-parametric model):
参数化模型假设模型参数固定, 模型由有限参数完全刻画; 非参数化模型假设模型参数不固定, 随数据量的增加而不断增大。
按算法分类: 在线学习、批量学习
在线学习(online learning): 一次接受一个样本, 进行预测, 然后学习模型
批量学习(batch learing): 一次接受所有数据, 学习模型, 之后进行预测
按技巧分类: 贝叶斯学习(Bayesian learning)、核方法(kernel method)
统计学习方法三要素
方法 = 模型 + 策略 + 算法
模型
模型是所要学习的条件概率分布或决策函数。 模型的假设空间(hyposis space)包含所有的条件概率分布或决策函数, 用F表示
假设空间可以定义为决策函数的集合:
其中,X和Y是定义在输入空间和输出空间上的变量。这时F通常是一个参数向量决定的函数分布族:
参数向量theta取值于欧氏空间R^n中, 称为参数空间(parameter space)。
假设空间可以定义为条件概率分布的集合:
其中,X和Y是定义在输入空间和输出空间上的随机变量。这时F通常是一个参数向量决定的概率分布族:
参数向量theta取值于欧氏空间R^n中, 称为参数空间(parameter space)。
策略
策略是从假设空间中选取最优模型的准则
损失函数(loss function)/ 代价函数(cost function):度量模型一次预测的好坏
(1)0-1损失函数(0-1 loss function):
(2)平方损失函数 (quadratic loss function):
(3)绝对损失函数(absolute loss function):
(4)对数损失函数(logarithmic loss function)/对数似然损失函数(log-likelihood loss function):
风险函数(risk function)/ 期望损失(expected loss):
理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失
P(x, y)未知,无法计算期望损失
经验风险(empirical risk)/ 经验损失(empirical loss):
f(X)关于训练集的平均损失
样本容量N趋于无穷时,经验风险趋于期望风险;
当样本数目有限时,需要对经验风险进行矫正——经验风险最小化、结构风险最小化
经验风险最小化(empirical risk minimization, ERM):
经验风险最小的模型是最优的模型。
但样本数量少时,会有“过拟合”。
结构风险最小化(structral risk minimization, SRM):
等价于正则化。
模型f越复杂,正则化项/罚项J(f)就越大
算法
算法是学习模型的具体计算方法。 统计学习问题归结为最优化问题, 算法成为求解最优化问题的方法
标签:function,loss,概率模型,模型,学习,参数,统计,概论 来源: https://www.cnblogs.com/kyfishing/p/15356204.html