参数估计
作者:互联网
参数估计
假设随机变量服从某种概率分布 \(p(x)\),但这种分布的参数\( \theta\)是未知的,比如假设 \(p(x)\) 服从一维正态分布,\(p(x) \sim N(\mu,\sigma^2)\),其中\(\mu\)和\(\sigma\)是未知的。需要根据一组服从此概率分布的样本来估计出概率分布的参数,这就是参数估计。对于已知概率密度形式的问题,有最大似然估计,最大后验估计以及贝叶斯估计三种方法。
最大似然估计(MLE)
最大似然思想
最大似然估计为样本构造一个似然函数,通过让似然函数最大化,求解出参数\(\theta\)。其直观解释是,寻求参数的值使得给定的样本集出现的概率(或概率密度函数值)最大。最大似然估计认为使得观测数据(样本值)出现概率最大的参数为最优参数。这一方法体现了“存在的就是合理的”这一朴素的哲学思想:既然这组样本出现了,那么它们出现的概率理应是最大化的。
最大似然数学表达
假设样本服从的概率分布为 \(p(x;\theta)\),其中 \(x\) 为随机变量,\(\theta\) 为要估计的参数。给定一组样本 \(x_{i},i=1,\cdot \cdot \cdot l\),它们都服从这种分布且相互独立。因此,它们的联合概率为
\[\prod_{i=1}^lp(x_i;\theta) \]这个联合概率也称为似然函数。其中\(x_i\)是已知的,\(\theta\)未知。似然函数是优化\(\theta\)的函数。
\[L(\theta)=\prod_{i=1}^lp(x_i;\theta) \]目标是让\(L(\theta)\)最大化,因为这组样本既然出现了,那么它们出现的概率理应是最大的。即:
\[\max_\theta\prod_{i=1}^lp(x_i;\theta) \]将似然函数取对数得到对数似然函数:
\[lnL(\theta)=ln\prod_{i=1}^lp(x_i;\theta)=\sum_{i=1}^llnp(x_i,\theta) \]对数函数为增函数,因此最大化似然函数等价于最大化对数似然函数:
\[\max_\theta \sum_{i=1}^llnp(x_i,\theta) \]高斯分布的最大似然估计
对于正态分布 \(N(\mu,\sigma^2)\),有样本集 \(x_1,\cdot \cdot \cdot x_n\),该样本集的似然函数:
\[L(\mu,\sigma)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=\frac{1}{\sqrt{2\pi}\sigma}\exp-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 \]对数似然函数为:
\[lnL(\mu,\sigma)=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 \]对\(\mu\)和\(\sigma\)求偏导,并令其等于0:
\[\begin{cases} \frac{\partial lnL(\mu,\sigma)}{\partial\mu}=-\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)=0 \\ \frac{\partial lnL(\mu,\sigma)}{\partial\sigma}=-\frac{n}{\sigma}+\frac{1}{\sigma^3}\sum_{i=1}^n(x_i-\mu)^2=0 \end{cases} \]解得:
\[\mu=\frac{1}{n}\sum_{i=1}^nx_i \ \sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 \]对于多维高斯分布\(N(\mu,\Sigma)\),有类似的结果:
\[\mu=\frac{1}{n}\sum_{i=1}^nx_i \]\[\Sigma=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)(x_i-\mu)^T \]最大后验估计(MAP)
最大后验估计思想
最大后验估计则将参数 \(\theta\) 看做随机变量,假设它服从某种概率分布,通过最大化后验概率 \(p(\theta|x)\) 确定其值,其核心思想是使得在样本出现的条件下参数的后验概率最大化。求解时需要假设参数 \(\theta\) 服从某种分布(称为先验分布)。前面的最大似然估计的核心思想是既然这组样本出现了,那么它们出现的概率理应是最大化的。
假设参数服从 \(p(\theta)\) 。根据贝叶斯公式:
\[p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)}=\frac{p(x|\theta)p(\theta)}{\int_\theta p(x|\theta)p(\theta)d\theta} \]其中 \(p(x|\theta)\) 是给定参数值时样本的概率分布,就是 \(x\) 的概率密度函数或概率质量函数,可以根据样本的值 \(x\) 进行计算。因此,最大化该后验概率等价于:
\[arg \max_\theta p(\theta|x)=arg \max_\theta \frac{p(x|\theta)p(\theta)}{\int_\theta p(x|\theta)p(\theta)dx}=arg \max_\theta p(x|\theta)p(\theta) \]最大后验概率估计与最大似然估计的区别在于目标函数中多了 \(p(x)\) 这一项,如果 \(\theta\) 服从均匀分布,该项为常数,最大后验概率估计与最大似然估计一致。
高斯分布的最大后验估计
假设有正态分布 \(N(\mu,\sigma_v^2)\) ,其均值 \(\mu\) 未知,方差已知。有一组采样来自该分布的独立同分布样布 \(x_1,\cdots,x_n\) 。假设参数 \(\mu\) 服从正态分布 \(N(\mu_0,\sigma_m^2)\) 。最大后验概率估计的目标函数为:
\[L(\mu)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\mu-\mu_0)^2}{2\mu_m^2})\prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma_v}exp(-\frac{(x_i-\mu)^2}{2\sigma_v^2}) \]贝叶斯估计
贝叶斯估计与最大后验概率估计的思想类似,区别在于不求出参数的具体值,而是求出参数所服从的概率分布。参数 \(\theta\) 的后验概率分布为
\[p(\theta|x)=\frac{p(x|\theta)p(\theta)}{\int_\theta p(x|\theta)p(\theta)d\theta} \]\(p(\theta)\) 为参数的先验分布,\(P(x|\theta)\) 为给定参数时样本的概率分布。这里得到的是参数的概率分布,通常取其数学期望作为参数的估计值。即参数的估计值为
\[E[p(\theta|x)] \]标签:似然,frac,mu,参数估计,theta,sigma,后验 来源: https://www.cnblogs.com/haibiandemoumoumou/p/16168411.html