李宏毅机器学习笔记:4.概率分类模型
作者:互联网
# 2021.09.18 点赞过1 明日更新下一P
# 内容:P10,P11
主要参考:https://blog.csdn.net/oldmao_2001/article/details/90314458
高斯分布:https://zhuanlan.zhihu.com/p/262125747
文章目录
P10: 概率分类模型
10.1 线性回归模型短板
- 不足1: 当我们发现有些数据很离谱,那么会严重影响模型,使得得出我们不想要的结果
右图我们得到的是紫的回归线,很明显 不是最理想的绿色
-
不足2:多分类的时候,错误的估计关系
我们多分类时,有分类1,2,3.线性回归会很自然的认为 3类离2类相似度更近,相对于1类来说。
-
不足3:有些模型你没办法计算
损失函数是输出和标记(label)不同的次数之和,这个函数是无法微分的。学过的梯度下降无法解决这个问题,解决方案有:感知机、支持向量机,但今天会用概率的方式解决这个问题。
10.2 贝叶斯
大名鼎鼎的贝叶斯是啥?很简单。
贝叶斯:拿到一个球是绿球,这个球是C1类拿出的概率是:
其中,全概率公式:
.
说人话就是,取出x的概率(比如绿球的概率)=C1箱中拿个球是绿 x x x球 x 选C1箱的概率 + C2箱中拿个球 x x x是绿球 x 选C2箱的概率
*注 运算符号为黄
10.3 高斯分布
正态分布数学推导过程:
https://zhuanlan.zhihu.com/p/24437232
【引题】
如果你抓了一把沙子,然后将它撒在桌子上,那么,沙子会均匀的铺在桌子上么,不会,沙子会堆成一个小堆,中心沙子最多,离中心越远沙子越少。
如果一个地区的平均工资是6000元,那么,收入2000元和10000元的人将是少数,大部分人的工资会在6000元左右浮动。
我们通常发现,以上问题都有很规律的分布,就是中间概率大,极端概率小的问题。
【单变量高斯分布】
- 高斯分布就是大名鼎鼎的正态分布
- 参数 方差 σ \sigma σ 参数下的图像
可以说 方差 σ \sigma σ 控制着高斯分布的“瘦”和“胖”。也很容易理解,因为方差主要看离散程度,如果方差越小,说明越集中,那么中间统计数量就越多,概率就越大,图形就越高;如果方差越大,说明,数据越离散,极端情况的数据就相对于更多,分布就越扁。
方差公式:
σ 2 = ( 1 / m ) ∑ i = 1 m ( x i − μ ) 2 \sigma^2=(1/m)\sum_{i=1}^m(x^i-\mu)^2 σ2=(1/m)∑i=1m(xi−μ)2
.
这里, x i x^i xi是数据集中的单个值,m是数据的总数。
- 参数 均值
μ
\mu
μ
左图的形状与右图完全相同,只是中心移动到了3。现在最大的密度是3。也很容易理解, μ \mu μ是个均值概念,也就是平均值,他的值就应该是分布最多的地方,也是正态分布轴的位置。
方差公式:
μ = ( 1 / m ) ∑ i = 1 m x i \mu=(1/m)\sum_{i=1}^mx^i μ=(1/m)∑i=1mxi
.
这里, x i x^i xi是数据集中的单个值,m是数据的总数。
【多元高斯分布】
这里面有三个参数:
- x是个n维向量,比如宝可梦7个特征,那么x就是7维;
- μ \mu μ 是均值向量,例子中是也是七维
- 大写sigma : Σ \Sigma Σ是个矩阵,例子中是个7*7的矩阵
我们也就是 知道一个数据x的n位特征和抽样统计分布的 μ , Σ \mu,\Sigma μ,Σ, 我们能求出来,这个数据抽样出来的概率。
10.4 应用过程
以李宏毅老师,宝可梦二维数据来演示二分类过程,数据应用计算过程
已知:我们从样本中抽了140只宝可梦,水系宝可梦79只,一般系宝可梦61只
求:如何知道一个宝可梦(例如一只海龟)属于水系的概率是多少?即 P(x|C1),如果是2分类,大于0.5,那么就归于class1(水系)
【思路】
我们如果知道P(C1),P(C2),P(x|C1),P(x|C2),四个概率 就可解求得
- ① 求水系宝可梦概率P(C1) 和 一般系宝可梦概率 P(C2)
P(C1) = 79/(79+61) = 0.56
P(C2) = 61/(79+61) = 0.44
- ② 找到均值和协方差矩阵(最大似然 maximum likelihood)
【杨哥解析】
- 首先这140只宝可梦是抽出来的,满足高斯分布
- 如图,取样可能满足多个高斯分布
如何选择?
我们选择概概率最大的,也就是最大似然高斯分布( μ ∗ , Σ ∗ \mu^*,\Sigma^* μ∗,Σ∗)
正规求法:
直接结果法,求C1的分布:
同理,求C2的。得到一下结果
- ③ 用高斯分布分别求向量x[103.45]在两个高斯分布的概率,即计算P(x|C1),P(x|C2)
10.5 模型改进
- 我们为了简化计算过程,用了同一个 Σ \Sigma Σ
- 最大似然估计
正规求法
偷懒求法:
标签:概率,方差,李宏毅,模型,笔记,mu,C2,C1,高斯分布 来源: https://blog.csdn.net/wistonty11/article/details/120365719