其他分享
首页 > 其他分享> > 机器学习西瓜书自学(不定期更新)

机器学习西瓜书自学(不定期更新)

作者:互联网

一直在学深度学习,但尴尬的是对机器学习并不了解,因而参考西瓜书对机器学习做一个简单的整理(时间有限,部分内容个人觉得不重要,或学过,或后期可以再学,因而不做学习,也不总结上去)

基础知识
一:基础概念
NP问题:非确定性多项式难题:不能确定得到的多项式是否能真正解决问题
1.特征(feature)、 潜在的规律/真相(ground truth)、
2.二分类中:正反类(postive 、negative class)、
3.监督学习(supervised learning):分类和回归 、 无监督学习(unsupervised learning):聚类
4.机器学习目的:好的泛化能力(generalization)
5.独立同分布假设:所有样本服从一个未知分布。
6.错误率(error rate):错误的样本占比、精度(accuracy):1-错误率
7.分类精度"100%"往往效果不好,即过拟合(overfitting) —欠拟合(underfitting)
8.模型选择:选择泛化误差最小的模型,然而无法知道泛化误差。可知道的只有训练误差,而训练误差由于存在过拟合因而不适合作为标准。因而用测试误差(testing error)作泛化误差的近似.
二:数据集划分
要求:1.互斥(训练集与测试集不重合)2.数据分布一致性(分类任务中保证样本类别比例近似,即训练集与测试集类别比例近似)。
二分法(留出法,hold-out):一分为二、多次随机划分(划分训练集与测试集),取均值得训练结果。遗留问题:若训练集占比过大,测试集验证效果不够好,若测试集占比过大,训练结果不好(常划分比例为2/3-4/5)。
交叉验证法(cross validation):将数据集等比分成十份,用九份做训练,一份做验证,进行10次。
自助法(bootstrapping):从样本中随机取出一个样本做训练(放回,取m次),则训练集有m个样本(可能重复),取极限得测试集有约1/e=36.8%的数据集未出现。
类别比例失调:
1.再缩放:以二分类为例,若比例相同,则预测值t>T(阈值,0.5)为正例,若比例失调,则将阈值设为n/(n+m),n、m分别为正反例数目。
2.欠采样:删去一些样本使得类别比例相似
3.正采样:增加样本使得类别比例近似
4.阈值移动:训练好的模型根据实际类别比例进行改动。
三:模型训练
1.将数据集划分为测试集和训练集训练模型后得到模型参数配置。实质上应再用整体数据集做训练集用该参数重新训练,再提交给客户。
四:性能度量
均方误差(多用于回归任务)、错误率、精度(分类)、查准率、查全率(检索任务)
ROC:受试者工作特征:用于判断模型泛化能力好坏。ROC曲线面积越大(AUC),性能越好(对比)。(纵横坐标分别为真、假正例率)
真假正例率:郑例被判断为正例、 负例被判断为正例。
Precison(查准率):预测为正例的样本中真正正例的比例。
Recall(召回率):真正为正例的样本有多少被预测出来

二:决策树
思想:分而治之,判断类别是有多个决策因子,每个决策因子做一次判断,逐步判断下去,形成树状。因而是递归过程。递归返回(1.所有结点类别相同;2.属性集为空,即所有类别可能性相同,无法划分;3.样本集为空,无法划分)。对于情形2,标记为叶结点,并将其设定为该结点所含样本数最多的类别;(后验分布)对于情形3,标记为叶结点,设定为父类结点所含样本最多的类别(先验分布)
专业词:叶结点:分类的结果;根结点、内部结点:中间的判断过程
判断:1.信息熵(ent),判断样本纯度(所含类别尽可能唯一),信息熵为信息量的统计,越小纯度越高。以二分法为例:信息熵为ent = -(p1log2p1+p2log2p2)
2.信息增益,则为按照某一决策因子(假设决策因此会产生三种情况)进行分类,则增益gain = ent(D)-(D1ent(D1)/D+D2ent(D2)/D+D3ent(D3)/D);信息增益越大,纯度越大,利用信息增益作为准则进行分类划分。
3.增益率(gain ratio):gain ratio = gain/a ;a = -{D1/Dlog2(D1/D)}求和,为定值,且分类数越大,a值越大。
基尼指数,越小,分类纯度越高
缺点:信息增益对可取值数较多的属性有所偏好,增益率对取值数小的有偏好
剪枝处理:缓解过拟合问题
1.预剪枝:生成过程中,对每个结点在划分前先估计,不能带来泛化提升,则设置为叶结点
方法:将该结点的数据集分为训练集和验证集,用某一决策因子分类数据集,用验证集验证,若验证集的精度下降或不变,则该结点被标记为叶结点。
优点:减少过拟合、提高分类速度。
缺点:有些分支当前的划分虽不能带来泛化能力提升,但后续划分会带来性能显著提高,预剪枝的贪心原则禁止了这些分支的展开,可能带来欠拟合。
2.后剪枝:生成好的决策树,自下而上考察,替换为叶结点可带来泛化提升,则设置为叶结点
方法:将叶结点上一结点设为叶结点,判断精度是否提高,提高改为叶结点。
优点:欠拟合风险小,泛化能力强;
缺点:时间开销大。
缺失值处理:有缺失值是,只以无缺失值样本作为判断,信息熵按照舍去缺失值后样本数计算,信息增益需加上总测试集与无缺失值集的比例系数。
多变量决策树:分类器不是单一属性,而是多个属性的线性组合。

标签:结点,西瓜,泛化,训练,分类,不定期,样本,类别,自学
来源: https://blog.csdn.net/lzmsxf/article/details/118355593