统计学习方法自学笔记(这章属于绪论有点杂乱,后续补)
作者:互联网
一、分类
基本分类:
监督学习:从标注数据中学习预测模型的机器学习问题。换句话说,就是使用训练数据集训练好一个模型,再使用该模型对测试样本进行预测,训练集是已知的。由学习系统和预测系统两部分组成。(样本有标签)
无监督学习:从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。简而言之,就是对于一堆数据,我们预先并不知道如何分类,通过数据本身的特征对数据进行分类统计。
强化学习:智能系统在于环境的持续互动中学习最优行为策略的机器学习问题。(阿尔法狗)
半监督学习和主动学习:半监督学习:利用少量标注数据、大量未标注数据学习预测模型的机器学习问题。主动学习:机器不断主动给出实例让教师进行批注,然后利用标注数据学习预测模型的机器学习问题。
按模型分类
概率模型和非概率模型
概率模型:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、神经网络。
线性和非线性
参数化和非参数化
按算法分
在线学习
批量学习
二、三要素
方法=模型+策略+算法
策略:损失函数和风险函数
损失函数:(1)0-1损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数
损失函数值越小,模型越优。由于输入输出是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是
由于P(X,Y)不可知,所以一般使用经验风险,经验风险是模型关于训练样本集的平均损失
由于训练样本有限,所以监督学习一般考虑经验风险最小化和结构风险最小化,经验最小化,就是上面式子取最小,如果样本过少,经验最小化就会过拟合,这时候就考虑结构最小化。结构最小化等价于正则化,就是加表示模型复杂度的正则化项或者罚项。
算法:挑选合适算法,求解最优模型
训练误差,测试误差
正则化:减小模型复杂性,防止过拟合
交叉验证:数据小的时候用,数据集随机划分为训练集、训练集、验证集三部分
泛化误差上界:期望风险会小于经验风险加项
生成式模型和判别式模型
生成方法:(一般复杂但准确)
判别方法:
或
监督学习的相关应用:
分类问题(在二分类法常用,关注类为正类,其他类为负类)
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为负类数
TN——将负类预测为负类数
这里主要有两个评价指标:精确率和召回率
精确率(预测为正类的样本多少被分对,可以说为查准率):
召回率(在实际正类中,多少正类被发现,可以说为查全率(宁可错杀,不放过一个)
F1值:
标注问题:(NLP自然语言处理用的较多)
回归问题:预测,等价于函数拟合。最常用的损失函数是平方损失函数。
标签:正类,负类,函数,绪论,这章,模型,学习,杂乱,预测 来源: https://blog.csdn.net/zhangmnh/article/details/120566115