其他分享
首页 > 其他分享> > 数理统计:参数估计

数理统计:参数估计

作者:互联网

learning why, thinking what, then forgetting how.

随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

教材为:《数理统计(孙海燕等)》


第二章 参数估计

在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望方差等。统计推断主要分为参数估计假设检验,参数估计又分为点估计区间估计


2.1 参数的点估计

首先提出参数参数的估计量的概念。

参数估计的实质:构造合适的统计量,作为参数的实函数的估计

常见的参数估计方法:

2.1.1 频率替换估计

  1. 根据样本已知的频率确定一个使用的概率
  2. 将概率表示成待估计量的函数。
  3. 将待估计量反解成概率的函数。
  4. 使用已知样本频率替换总体概率。

频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

2.1.2 矩估计

大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计

  1. 使用待求的参数的函数表示总体原点矩总体中心矩
  2. 将待求的参数反解为总体原点矩或总体中心距的函数。
  3. 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计

只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。

根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。

因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法

2.1.3 极大似然估计

极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大

极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。

  1. 写出联合概率分布函数作为似然函数
  2. 对似然函数取对数,并整理;
  3. 求导数,令导数为 0,得到似然方程
  4. 解似然方程,得到的参数即为参数的极大似然估计

若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围

如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。

扩展:EM 算法(Expectation-Maximization)

求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。

前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。

问题描述:有些问题中的参数分为隐含参数模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。

算法流程

  1. 随机初始化模型参数的初始值
  2. 迭代:
    • E 步:计算隐含参数的条件概率期望
    • M 步:计算模型参数的极大似然解
  3. 迭代 E-M 步骤直到算法收敛

算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。

更详细的步骤参见EM 算法详解:人人都懂 EM 算法


2.2 估计量的评优准则

对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计

2.2.1 均方误差准则

评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| ∣T(x)−q(θ)∣。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:

M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ​(T(X))=Eθ​[T(x)−q(θ)]2=Varθ​(T(X))+(Eθ​[T(x)−q(θ)])2

均方误差等于方差加偏差

总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。

对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则

2.2.2 无偏估计

无偏估计即偏差为零,其均方误差等于方差

E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ​[T(x)]=q(θ)

E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ​(T(X))=Varθ​(T(X))

无偏估计的性质

  1. 无偏估计要求对于所有的参数 θ,估计都是无偏的。
  2. 无偏估计可能不存在
  3. 若无偏估计存在,则一般是不唯一的。
  4. 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大
  5. 函数变换下,无偏性可能消失。

2.2.3 一致最小方差无偏估计

一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。

建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差

提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ​(g(T))=0,则 T 为完全统计量。

完全充分统计量

p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1​,x2​,……,xn​;θ)=c(θ)h(x1​,x2​,……,xn​)exp{k=1∑m​wk​(θ)Tk​(x1​,x2​,……,xn​))}

如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。

Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):

  1. q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ​(φ(x)∣S(x)),即为一致最小方差无偏估计。
  2. 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。

实际的求解一致最小方差无偏估计的方法:

  1. 求解完全充分统计量,分解后w(θ) 值域包含内点
  2. 求解完全充分统计量是否无偏
  3. 构造函数使其无偏化

2.3 信息不等式

无偏估计方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量信息不等式

Fisher 信息量为

I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ​[∂θ∂​lnp(x;θ)])2=−Eθ​[∂θ2∂2​lnp(x;θ)]

且 n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In​(θ),而信息不等式给出了方差的下界

V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ​(q^​)≥nI(θ)[q′(θ)]2​

若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率: [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q′(θ)]2​/Varθ​(q^​)

一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计


考试题型

  1. 均方误差
  2. 频率替换估计
  3. 矩估计
  4. 极大似然估计
  5. 一致最小方差无偏估计
  6. 凑无偏估计
  7. Fisher 信息量
  8. 判断一致最小方差无偏估计是否有效

历年考题

2019

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2016

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2015

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2014

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签:似然,总体,参数估计,方差,无偏,数理统计,估计,参数
来源: https://blog.csdn.net/qq_39384184/article/details/111938771