DataWhale深度学习第三章 -- 机器学习基础
作者:互联网
DataWhale深度学习第三章 – 机器学习基础
courseLink: https://datawhalechina.github.io/unusual-deep-learning/#/README
文章目录
机器学习基础
机器学习分类
- 有监督学习(SupervisedLearning): 跟学师评
- 无监督学习(UnsupervisedLearning): 自学标评
- 强化学习(ReinforcementLearning): 自学自评
其中,有监督和无监督又可以再次分类:
- 有监督: “分类” 和 “回归”
- 无监督: “聚类”和“降维"
数据集
- 分类
- 训练集:顾名思义
- 验证集:用来调整模型参数以及对模型进行评估
- 测试集:评估模型泛化能力,不是用来调参,注意与验证集的区分
误差分析
-
误差分类:
- 训练误差:在训练集上的误差
- 泛化误差:在总体样本上的误差
- 测试误差:在测试集上的误差
-
会出现的两种情况
- 过拟合:可以很好的拟合训练样本,但不能很好地拟合测试样本,使得泛化性能下降。常用方法:减少参数(选择评价的指标太多了),降低模型复杂度,正则化, 低偏差,高方差
- 欠拟合:训练出的数据,规律性不强,拟合度不高,增加特征属性,选择更加复杂的模型,表现为 偏差,低方差
-
泛化误差的几个指标
- 偏差:反应模型拟合能力
- 方差:反应了模型的稳定性
-
交叉验证
- 将训练集划分为K份,令其中K-1份作为训练集, 另外一份作为验证集,在训练集上学得函数后,然后在验证集上计 算误差—K折交叉验证
有监督学习
- 有标准答案
- 有监督学习是训练一个模型用于预测有标记(答案)的取值
- 若预测的值是离散值,则此任务为“分类”
- 若预测的值是连续值,则此任务为“回归”
线性回归
- 线性回归是在样本属性和标签中找一个线性关系,根据训练数据找一个线性模型
- 线性回归学习的对象是 权重向量和偏置向量
逻辑回归
- 逻辑回归利用sigmoid 函数,将线性回归产生的预测值压缩到 0-1 之间。此时将 y 视作样本为正例的可能性,逻辑回归的本质是***分类算法***
支持向量机
- 支持向量机,基于线性判断函数
- SVM 基本思想:对于线性可分的数据,能将训练样本划分开超平面有很多,于是我们寻找“位于两类训练样本正中心的超平面”,即 margin 最大化。这种划分对训练样本局部扰动的承受性最好。
决策树
- 基于树形结构进行决策的机器学习方法
- 叶子节点是类标,内部节点是属性
随机森林
- 集成学习(Ensemblelearning)
- 组合多个弱监督学习以期得到一个更好的更全面的强监督学习
- 随机森林,随机的方式建立多个决策树,每棵树相互独立,互不干扰
无监督学习
- 数据集没有标记信息(自学)
- 聚类:预测各个样本之间的关联度,把关联度大的划为同一类、关联度小的样本划为不同类
- 降维
聚类
- 常见聚类算法
- K-Means
- 均值漂移
- 基于密度
- K-Means 聚类:其是一个反复迭代的过程,算法主要步骤:
- 降维
- 降维优势:
- 数据在低维下更容易处理、更容易使用;
- 相关特征,特别是重要特征更能在数据中明确的显示出来;
- 如果只有二维或者三维的话,能够进行可视化展示;
- 去除数据噪声,降低算法开销等。
- 降维优势:
前馈神经
主要内容
- 神经元模型
- 感知器、多层感知器
- BP 算法
- 前馈神经网络
神经元模型
神经元
结构
感知器
- 单层感知器
- 多层感知器
BP算法
- BP算法是误差反向传播算法(Error Back Propagation)
基本过程
- 前向传播计算:由输入层经过隐含层向输出层的计算网络输出
- 误差反向逐层传递:网络的期望输出与实际输出之差的误差信号由输出层经过隐含层逐层向输入层传递
- 由“前向传播计算”与“误差反向逐层传递”的反复进行的网络训练 过程
激活函数
- 跃阶函数
- 不连续,只有 0,1
- Sigmoid 函数
- 连续
标签:误差,感知器,--,算法,DataWhale,学习,监督,聚类 来源: https://blog.csdn.net/Zhou_Yulong/article/details/121446419