首页 > 其他分享> > 【统计学习方法】统计学习及监督学习概论

【统计学习方法】统计学习及监督学习概论

2021-09-30 13:03:11 作者：互联网

统计学习

关于计算机针对数据构建概率统计模型，并通过模型对数据进行分析和预测

统计学习的分类

基本分类：监督学习，无监督学习，强化学习，半监督学习，自主学习

监督学习（superised learning）: 从标注数据中学习预测模型，本质是输入到输出的映射的统计规律

无监督学习（unsuperised learning）: 从无标注数据中学习预测模型，本质是学习数据中统计规律或潜在结构

强化学习（reinforced learning）：指智能系统在与环境的连续互动中学习最优行为策略，本质是学习最优的序贯决策

半监督学习（semi-superised learning）: 利用标注数据和未标注数据学习预测模型。旨在利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低成本达到学习效果

主动学习（active learing）: 机器不断给出实例让教师进行标注，让后利用标注数据学习预测模型。目标找出对学习最有帮助的实例让教师标注，以较小的标注代价达到学习效果。

按模型分类：概率模型/非概率模型，线性模型/非线性模型，参数化模型/非参数化模型

概率模型（probabilistic model）/ 非概率模型(non-probabilistic model)：

监督学习中，概率模型取条件概率分布P(y|x)的形式，非概率模型取决策函数y = f(x)的形式；

无监督学习中，概率模型取条件概率分布P(z|x)或P(x|z)的形式，非概率模型取决策函数z = g(x)的形式。

概率模型和非概率模型互相转化：

概率模型—>非概率模型：条件概率分布最大化（极大似然估计）

非概率模型—>概率模型：函数归一化

概率模型和非概率模型的区别不在于输入输出的映射关系，而在于模型的内在结构

线性模型（linear model）/ 非线性模型（non-linear model):

函数y=f(x)或z=g(x)为线性函数，则为线性模型；否则为非线性模型。

线性模型：感知机、线性支持向量机、k邻近、k均值、潜在语义分析；

非线性模型： AdaBoost、核函数支持向量机、神经网络。

参数化（parametric model）/ 非参数化(non-parametric model):

参数化模型假设模型参数固定，模型由有限参数完全刻画；非参数化模型假设模型参数不固定，随数据量的增加而不断增大。

按算法分类：在线学习、批量学习

在线学习（online learning）: 一次接受一个样本，进行预测，然后学习模型

批量学习（batch learing）: 一次接受所有数据，学习模型，之后进行预测

按技巧分类：贝叶斯学习（Bayesian learning）、核方法（kernel method）

统计学习方法三要素

方法 = 模型 + 策略 + 算法

模型

模型是所要学习的条件概率分布或决策函数。模型的假设空间（hyposis space）包含所有的条件概率分布或决策函数，用F表示

假设空间可以定义为决策函数的集合：

其中，X和Y是定义在输入空间和输出空间上的变量。这时F通常是一个参数向量决定的函数分布族：

参数向量theta取值于欧氏空间R^n中，称为参数空间（parameter space）。

假设空间可以定义为条件概率分布的集合：

其中，X和Y是定义在输入空间和输出空间上的随机变量。这时F通常是一个参数向量决定的概率分布族：

参数向量theta取值于欧氏空间R^n中，称为参数空间（parameter space）。

策略

策略是从假设空间中选取最优模型的准则

损失函数（loss function）/ 代价函数（cost function）：度量模型一次预测的好坏

（1）0-1损失函数（0-1 loss function）:

（2）平方损失函数 (quadratic loss function):

（3）绝对损失函数(absolute loss function):

（4）对数损失函数(logarithmic loss function)/对数似然损失函数（log-likelihood loss function）:

风险函数（risk function）/ 期望损失（expected loss）:

理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失

P(x, y)未知，无法计算期望损失

经验风险（empirical risk）/ 经验损失（empirical loss）:

f(X)关于训练集的平均损失

样本容量N趋于无穷时，经验风险趋于期望风险；

当样本数目有限时，需要对经验风险进行矫正——经验风险最小化、结构风险最小化

经验风险最小化（empirical risk minimization, ERM）：

经验风险最小的模型是最优的模型。

但样本数量少时，会有“过拟合”。

结构风险最小化（structral risk minimization, SRM）：

等价于正则化。

模型f越复杂,正则化项/罚项J(f)就越大

算法

算法是学习模型的具体计算方法。统计学习问题归结为最优化问题，算法成为求解最优化问题的方法

标签：function,loss,概率模型,模型,学习,参数,统计,概论
来源： https://www.cnblogs.com/kyfishing/p/15356204.html

【统计学习方法】 统计学习及监督学习概论