数据科学的四种参数估计方法
作者:互联网
摘 要 文章从概率、统计这两大基本概念入手,通过构造一个基本问题,利用四种参数的估计方法及其思路分别对问题进行分析与解答,从而厘清四种方法各自的特征以及之间的差异之处。
关键词 极大似然估计 最大后验估计 贝叶斯估计 最小二乘估计
1. 什么是概率?
1.1 概率与统计
“概率”和“统计”总是形影不离,其联系紧密但也有所区别。
(一)区别
用通俗语言来理解
“概率”为给定条件,对未来进行推理预测;“统计”为回顾过去,进行归纳总结溯源。
用相对专业的语言来总结:
概率研究的是在给定条件(已知模型和参数)下,对要发生的事件可能性(新输入数据)的预测;
统计研究的是在给定数据(训练数据)下,对数据生成方式(模型和参数)的归纳总结。
举例说明:
概率研究的是,已知一个透明盒子里放着a个红球b个白球,计算下一个摸出来的球是红球的可能性;
而统计研究的是,装球盒子非透明,内部信息不知的情况下, 只看到每次摸出来球的颜色情况,从而推断该盒子的内部信息,如红白球的比例。
(二)联系
收集到数据后,为了做出统计推断,是需要建立一个数学数据模型的,这个模型一般就是数据的概率分布,而概率分布就是概率论的研究内容,因此说,概率论是统计学的数学理论基础,统计学是对概率论的应用。
1.2 两大学派
我们在上述提到,“概率”最终研究的是事件的“可能性”,而在现代统计学中,对于“可能性”的探讨有两大不同学派:频率学派和贝叶斯学派。
频率学派从“自然”的角度出发,试图直接为事件本身建模,他们认为世界是确定的,有一个本体,并且有一个不变的真值,我们的目标就是要找到这个真值或真值所在的范围。
贝叶斯学派并不从试图刻画事件本身,而是从观察者角度出发。他们并不试图说明“事件本身是随机的”,或者“世界的本体带有某种随机性”,而是对世界先有一个预判,通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
我们在目前学习中遇到的贝叶斯流派理论是贝叶斯公式:P(A│B)=(P(B│A)P(A))/(P(B│A)P(A)+P(B│A ̅ )P(A ̅)),贝叶斯公式其实是在描述“你有多大把握能确认相信一件证据?“
上述公式可理解为,我们为了确认“事件结果B发生的原因是A造成的“这件事,要从引起事件B结果发生的所有原因中算“A发生并造成B”的占比。
其中,P(B│A)为后验概率,P(A)为先验概率。我们为了确认是否真的是A造成B,要考虑A事件本身发生的概率如何,若P(A)很小,P(B│A) P(A)也很小,在其余情况确定的情况下,P(A│B)不会很大,即我们并没有很大把握可以确认相信这一证据。
简单说,频率派认为事件发生的“可能性”是客观的,可通过不停观察重复事件的结果推断;贝叶斯派认为“可能性”是一种主观判断,通过不停接受新信息而更新。二者看似矛盾,但都是对“可能性”的合理建模。
1.3 概率和似然
现实生活中我们经常拿抛硬币作为公平选择的一种方式,在一般认知内,硬币出现“花”和“字”的情况是差不多的。我们把硬币出现“花”面的情况称为硬币的参数。按照上述,已知硬币的参数去推断抛硬币的各种情况的可能性,就叫做“概率”。
但是假设抛100次硬币,每次出现的都是“花”,在此情况下,我们似乎认为硬币的参数是不公平的。以上这种通过事实反过来猜测硬币的情况,即为“似然”。
综上,概率是已知参数,对结果可能性的预测。似然是已知结果,对参数是某个值的可能性预测。
对于函数P(x|θ),x表示某一个具体的数据;θ表示模型的参数。从不同的观测角度来看可以分为以下两种情况:
①概率函数:θ已知且不变,x是变量,表示不同x出现的概率;
②似然函数:x已知且不变,θ是变量,表示同一个x在不同θ下出现的概率。
这种理解方式可以类比xy,若x已知,2x即为指数函数;若y已知,x^2则理解为二次函数。
2.四种参数估计方法
我们不妨利用一个简单的问题来介绍这四种参数估计方法:
以抛硬币为例,假设我们有一枚硬币,现在要估计其正面朝上的概率θ;统计问题离不开数据,故进行10次实验(独立同分布,i.i.d.),将硬币抛10次,得到一组数据x_0情况为:(反正正正正反正正正反)。
2.1 极大似然估计
最大似然估计,Maximum Likelihood Estimation,也叫极大似然估计。核心思想是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值θ。最大似然估计是频率学派的代表。
上述问题中,我们要求的模型参数θ指:正面朝上的概率,其似然函数写为f(x_0,θ)=θ^7 〖(1-θ)〗^3,最大似然估计顾名思义要最大化上述函数,可根据图1得出,在θ=0.7时,似然函数取最大值,此时已经完成了最大似然估计。
根据结果,我们认为正面朝上的概率为0.7,但是以我们的常识来判断硬币通常是均匀的,而这个常识在此处并不考虑。最大似然估计只关注当前的样本,认为当前发生的事件是概率最大的事件,只关注当前发生的事情,不考虑事情的先验情况。
2.2 最大后验估计
最大似然估计是求θ,使似然函数P(x_0│θ)最大;认为此时的θ是最好的θ,此时最大似然估计是将θ看作固定的未知值。最大后验概率估计认为θ是一个随机变量,θ具有某种概率分布,称为先验分布,求解时除了考虑P(x_0│θ)之外,还要考虑其先验分布P(θ),此时要最大化的函数是P(x_0│θ) P(θ)。此处用到了贝叶斯流派的思想。
在以上问题描述中,x_0的先验分布P(x)是通过实验得出,看作是固定值。(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则P(x_0)=n/100总之,这是一个可以由数据集得到的值)。因此我们只考虑贝叶斯公式等号右边的分子部分P(x_0│θ) P(θ)即可,又因P(θ│x_0 )为后验概率,这也即“最大后验概率估计“名称由来。
对于投硬币的例子来看,我们认为(“先验地知道”)θ取0.5的概率很大,取其他值的概率小一些。假设P(θ)用μ=0.5,σ^2=0.1的正态分布来描述,则P(x_0│θ) P(θ)的函数图像如图2所示:
此时函数取最大值时,θ取值已向左偏移,不再是0.7。由此可见,在最大后验概率估计中,θ的估计值与θ的先验分布有很大的关系。这也说明一个合理的先验概率假设是非常重要的。如果先验分布假设错误,则会导致估计的参数值偏离实际的参数值。
同时我们也可以得出一个结论,当先验分布均匀时,MAP估计与MLE相等。如果先验认为这个硬币是概率是均匀分布的,被称为无信息先验( non-informative prior ),通俗的说就是“让数据自己说话”,此时贝叶斯方法等同于频率方法。随着数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。
2.3 贝叶斯估计
贝叶斯估计是最大后验估计的进一步扩展,贝叶斯估计同样假定是θ一个随机变量并估计θ的分布,但在贝叶斯估计中,x_0的先验分布P(x)是不可忽略的。
现在不要求后验概率最大,重点放在P(x),即观察到的x的概率。一般来说,用全概率公式可以求得:P(x)=∫▒〖P(x_0│θ) P(θ)dθ〗
贝叶斯估计要解决得不是如何估计参数,而是用来估计新测量数据出现的概率,对于新出现的数据x ̃:
P(x ̃│X)=∫_θ▒〖P(x ̃│θ)P(θ│X)dθ=〗 ∫_θ▒〖P(x ̃│θ) (P(X│θ))/(P(x)) dθ〗【2】
2.4 最小二乘估计
最大似然法MLE,是从概率统计的角度处理最优化问题,核心在于把要求的模型假设为一种概率分布。而最小二乘法,它相比于概率的角度更直观,更具体,但它同样可以从概率的角度去解释。它的特点是使用平方损失来定义误差,而这个看似合理的前提其实是假设了误差是服从高斯分布的,即输出y服从高斯分布。所以最小二乘可以看作是极大似然的一种特例。这两种方法都是经验风险最小化。
而从结构风险最小化角度,在数值计算方面,采用的是带正则项的最小二乘法,即在平方损失函数后,再加上一项正则项;概率统计角度的结构风险最小化即最大后验估计MAP。
简单来说,最小二乘估计法的实质就是找到一个估计值,使得实际值与估计值之间的距离越小越好,并且是用实际值与估计值之间差值的平方来衡量这种距离。
3.总结
数据科学的参数估计方法有极大似然估计、最大后验估计、贝叶斯估计、最小二乘估计。通过以上的探讨,我们可以根据不同情况采取不同的估计方法。
欢迎大家加我微信学习讨论
标签:似然,概率,参数估计,硬币,贝叶斯,估计,科学,后验,四种 来源: https://blog.csdn.net/weixin_45962068/article/details/118279171