其他分享
首页 > 其他分享> > 统计学习方法自学笔记(这章属于绪论有点杂乱,后续补)

统计学习方法自学笔记(这章属于绪论有点杂乱,后续补)

作者:互联网

一、分类

基本分类:

监督学习:从标注数据中学习预测模型的机器学习问题。换句话说,就是使用训练数据集训练好一个模型,再使用该模型对测试样本进行预测,训练集是已知的。由学习系统和预测系统两部分组成。(样本有标签)

无监督学习:从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。简而言之,就是对于一堆数据,我们预先并不知道如何分类,通过数据本身的特征对数据进行分类统计。

强化学习:智能系统在于环境的持续互动中学习最优行为策略的机器学习问题。(阿尔法狗)

半监督学习和主动学习:半监督学习:利用少量标注数据、大量未标注数据学习预测模型的机器学习问题。主动学习:机器不断主动给出实例让教师进行批注,然后利用标注数据学习预测模型的机器学习问题。

按模型分类

概率模型和非概率模型

概率模型:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型

非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、神经网络。

线性和非线性

参数化和非参数化

按算法分

在线学习

批量学习

二、三要素

方法=模型+策略+算法

策略:损失函数和风险函数

损失函数:(1)0-1损失函数

L(Y,f(x))=\left\{\begin{} & &1,Y\neq f(X)) \\ & & 0,Y= f(X)) \end{matrix}\right.

                  (2)平方损失函数

L(Y,f(x))=(Y-f(X))^{2}

                  (3)绝对损失函数

L(Y,f(x))= \begin{vmatrix} Y-f(x) \end{vmatrix}

                  (4)对数损失函数

L(Y,f(x))=-logP(Y|X)

损失函数值越小,模型越优。由于输入输出是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是

R_{exp}(f)=E_{p}[L(Y,f(X))] =\int_{x*y}^{}L(y,f(x))P(x,y)dxdy

由于P(X,Y)不可知,所以一般使用经验风险,经验风险是模型关于训练样本集的平均损失

R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y{_{i},f(x{_{i}})})

由于训练样本有限,所以监督学习一般考虑经验风险最小化和结构风险最小化,经验最小化,就是上面式子取最小,如果样本过少,经验最小化就会过拟合,这时候就考虑结构最小化。结构最小化等价于正则化,就是加表示模型复杂度的正则化项或者罚项。

R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y{_{i},f(x{_{i}})})+\lambda J(f)

 算法:挑选合适算法,求解最优模型

训练误差,测试误差

正则化:减小模型复杂性,防止过拟合

交叉验证:数据小的时候用,数据集随机划分为训练集、训练集、验证集三部分

泛化误差上界:期望风险会小于经验风险加\varepsilon

R(f)\leqslant \hat{R}(f)+\varepsilon (d,N,\delta )

P[E(\bar{X})-\bar{X}\geqslant t]\leqslant exp\(\frac{2N^2t^2}{\sum_{i=1}^{N}(b_{i}-a_{i})^{2}})

P(R(f)-\hat{R}(f))\geq \varepsilon\leq exp (-2N \varepsilon^{2} )

生成式模型和判别式模型

生成方法:(一般复杂但准确)

P(Y|X)=\frac{P(X,Y)}{P(X)}

判别方法:

P(Y|X)f(X)

监督学习的相关应用:

分类问题(在二分类法常用,关注类为正类,其他类为负类)

TP——将正类预测为正类数

FN——将正类预测为负类数

FP——将负类预测为负类数

TN——将负类预测为负类数

这里主要有两个评价指标:精确率和召回率

精确率(预测为正类的样本多少被分对,可以说为查准率):

P=\frac{TP}{TP+FP}

召回率(在实际正类中,多少正类被发现,可以说为查全率(宁可错杀,不放过一个)

R=\frac{TP}{TP+FN}

F1值:

\frac{2}{F1}=\frac{1}{P}+\frac{1}{R}

F1=\frac{2TP}{2TP+FP+FN}

标注问题:(NLP自然语言处理用的较多)

回归问题:预测,等价于函数拟合。最常用的损失函数是平方损失函数。

标签:正类,负类,函数,绪论,这章,模型,学习,杂乱,预测
来源: https://blog.csdn.net/zhangmnh/article/details/120566115