其他分享
首页 > 其他分享> > 【datawhale-集成学习】 task05 基本的分类模型

【datawhale-集成学习】 task05 基本的分类模型

作者:互联网

来吧鸢尾花~

在这里插入图片描述

选择度量模型性能的指标

在这里插入图片描述

分类模型的指标

准确率

分类正确的样本数占总样本的比例
A C C = T P + T N F P + F N + T P + T N ACC = \frac{TP+TN}{FP+FN+TP+TN} ACC=FP+FN+TP+TNTP+TN​

精度

预测为正且分类正确的样本占预测值为正的比例
P R E = T P T P + F P PRE = \frac{TP}{TP+FP} PRE=TP+FPTP​

召回率

预测为正且分类正确的样本占类别为正的比例
R E C = T P T P + F N REC = \frac{TP}{TP+FN} REC=TP+FNTP​

F1值

F 1 = 2 P R E × R E C P R E + R E C F1 = 2\frac{PRE\times REC}{PRE + REC} F1=2PRE+RECPRE×REC​

ROC曲线

以假阳率为横轴,真阳率为纵轴画出来的曲线,曲线下方面积越大越好

选择具体的模型并进行训练

逻辑回归logistic regression

在回归问题中,因变量是连续的 --> 需要预测 E ( Y ∣ X ) E(Y|X) E(Y∣X)是一个连续的实数 real number?
在分类问题中,我们通过已知X的信息预测Y的类别,往往是一个离散集合中的某个元素:

能否用线性回归解决分类问题?
答:可以,但不好。
假设需要用balance和income预测是否信用卡违约:

(逻辑回归,就是把线性回归的结果压缩一下使得它的值在[0:1]区间内,使得他变成一个发生xx事件的概率)

补:手推公式照片

在这里插入图片描述

基于概率的分类模型

(1) 线性判别分析

基于贝叶斯公式对线性判别分析的理解

贝叶斯公式推导过程:
(补图)

基于降维分类对线性判别分析的理解

基于数据进行分类时,一个很自然的想法是:将高维的数据降维至一维,然后使用某个阈值
将各个类别分开。

在这里插入图片描述

  • 数据维度 – 二维
  • 我们把数据降维至一维,然后用阈值分类

(这似乎是一个很好的想法,我们总希望降维后的数据同一个类别自身内部方差小,不同类别之间方差要尽可能大)

类内方差小,类间方差大

在这里插入图片描述

(2) 朴素贝叶斯

在线性判别分析中,我们假设每种分类类别下的特征遵循同一个协方差矩阵,每两个特征之间是 存在协方差的,因此在线性判别分析中各种特征是不是独立的。

朴素贝叶斯算法对线性判 别分析作进一步的模型简化,它将线性判别分析中的协方差矩阵中的协方差全部变成0,只保留各 自特征的方差,也就是朴素贝叶斯假设各个特征之间是不相关的。

偏差-方差理论中,模型的简化 ==> 方差的减少
因此朴素贝叶斯也不例外,它比线性判别分析模型 方差小,偏差大。

实际中朴素贝叶斯的案例非常多,甚至比线性判别分析多

在这里插入图片描述

决策树

标签:集成,方差,分类,判别分析,TP,贝叶斯,datawhale,线性,task05
来源: https://blog.csdn.net/apple_50678962/article/details/115273348