其他分享
首页 > 其他分享> > 【统计学习方法】 统计学习及监督学习概论

【统计学习方法】 统计学习及监督学习概论

作者:互联网

统计学习

关于计算机针对数据构建概率统计模型,并通过模型对数据进行分析预测

 

统计学习的分类

基本分类:监督学习,无监督学习,强化学习,半监督学习,自主学习

监督学习(superised learning): 从标注数据中学习预测模型,本质是输入到输出的映射的统计规律

无监督学习(unsuperised learning): 从无标注数据中学习预测模型,本质是学习数据中统计规律或潜在结构

强化学习(reinforced learning):指智能系统在与环境的连续互动中学习最优行为策略,本质是学习最优的序贯决策

半监督学习(semi-superised learning):  利用标注数据和未标注数据学习预测模型。 旨在利用未标注数据中的信息, 辅助标注数据, 进行监督学习, 以较低成本达到学习效果

主动学习(active learing):  机器不断给出实例让教师进行标注, 让后利用标注数据学习预测模型。  目标找出对学习最有帮助的实例让教师标注,以较小的标注代价达到学习效果。

 

按模型分类 : 概率模型/非概率模型,线性模型/非线性模型,参数化模型/非参数化模型

概率模型(probabilistic model)/ 非概率模型(non-probabilistic model):

监督学习中,概率模型取条件概率分布P(y|x)的形式,非概率模型取决策函数y = f(x)的形式;

无监督学习中, 概率模型取条件概率分布P(z|x)或P(x|z)的形式, 非概率模型取决策函数z = g(x)的形式。

 

概率模型和非概率模型互相转化:

概率模型—>非概率模型:条件概率分布最大化(极大似然估计)

非概率模型—>概率模型:函数归一化

概率模型和非概率模型的区别不在于输入输出的映射关系,而在于模型的内在结构

 

线性模型(linear model)/ 非线性模型(non-linear model):

函数y=f(x)或z=g(x)为线性函数,则为线性模型;否则为非线性模型。

线性模型:感知机、线性支持向量机、k邻近、k均值、潜在语义分析;

非线性模型: AdaBoost、核函数支持向量机、神经网络。

 

参数化(parametric model)/ 非参数化(non-parametric model):

参数化模型假设模型参数固定, 模型由有限参数完全刻画; 非参数化模型假设模型参数不固定, 随数据量的增加而不断增大。

 

按算法分类: 在线学习、批量学习

在线学习(online learning): 一次接受一个样本, 进行预测, 然后学习模型

批量学习(batch learing):  一次接受所有数据, 学习模型, 之后进行预测

 

按技巧分类: 贝叶斯学习(Bayesian learning)、核方法(kernel method)

 

统计学习方法三要素

方法 = 模型 + 策略 + 算法

 

模型

模型是所要学习的条件概率分布或决策函数。 模型的假设空间(hyposis space)包含所有的条件概率分布或决策函数, 用F表示

 

假设空间可以定义为决策函数的集合:

                                                                            

 

 其中,X和Y是定义在输入空间和输出空间上的变量。这时F通常是一个参数向量决定的函数分布族:

                                                                               

 

 参数向量theta取值于欧氏空间R^n中, 称为参数空间(parameter space)。

 

假设空间可以定义为条件概率分布的集合:

                                                                          

 

 其中,X和Y是定义在输入空间和输出空间上的随机变量。这时F通常是一个参数向量决定的概率分布族:

                                                                               

 

  参数向量theta取值于欧氏空间R^n中, 称为参数空间(parameter space)。

 

策略

策略是从假设空间中选取最优模型的准则

损失函数(loss function)/ 代价函数(cost function):度量模型一次预测的好坏

(1)0-1损失函数(0-1 loss function):

                                                                   

(2)平方损失函数 (quadratic loss function): 

                                                                 

(3)绝对损失函数(absolute loss function):

                                                                            

(4)对数损失函数(logarithmic loss function)/对数似然损失函数(log-likelihood loss function):

                                                                            

 

 

风险函数(risk function)/ 期望损失(expected loss):

理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失

                                                                          

 

 P(x, y)未知,无法计算期望损失

经验风险(empirical risk)/  经验损失(empirical loss):

f(X)关于训练集的平均损失

                                                                             

 

 样本容量N趋于无穷时,经验风险趋于期望风险;

当样本数目有限时,需要对经验风险进行矫正——经验风险最小化、结构风险最小化

经验风险最小化(empirical risk minimization, ERM):

经验风险最小的模型是最优的模型。

                                                                             

 

 但样本数量少时,会有“过拟合”。

结构风险最小化(structral risk minimization, SRM):

等价于正则化。

                                                                          

 

 模型f越复杂,正则化项/罚项J(f)就越大

 

算法

算法是学习模型的具体计算方法。 统计学习问题归结为最优化问题, 算法成为求解最优化问题的方法


 

标签:function,loss,概率模型,模型,学习,参数,统计,概论
来源: https://www.cnblogs.com/kyfishing/p/15356204.html