参数估计

2022-04-20 09:34:45 作者：互联网

参数估计

假设随机变量服从某种概率分布 \(p(x)\),但这种分布的参数\( \theta\)是未知的，比如假设 \(p(x)\) 服从一维正态分布，\(p(x) \sim N(\mu,\sigma^2)\),其中\(\mu\)和\(\sigma\)是未知的。需要根据一组服从此概率分布的样本来估计出概率分布的参数，这就是参数估计。对于已知概率密度形式的问题，有最大似然估计，最大后验估计以及贝叶斯估计三种方法。

最大似然估计（MLE）

最大似然思想

最大似然估计为样本构造一个似然函数，通过让似然函数最大化，求解出参数\(\theta\)。其直观解释是，寻求参数的值使得给定的样本集出现的概率（或概率密度函数值）最大。最大似然估计认为使得观测数据（样本值）出现概率最大的参数为最优参数。这一方法体现了“存在的就是合理的”这一朴素的哲学思想：既然这组样本出现了，那么它们出现的概率理应是最大化的。

最大似然数学表达

假设样本服从的概率分布为 \(p(x;\theta)\),其中 \(x\) 为随机变量，\(\theta\) 为要估计的参数。给定一组样本 \(x_{i},i=1,\cdot \cdot \cdot l\),它们都服从这种分布且相互独立。因此，它们的联合概率为

\[\prod_{i=1}^lp(x_i;\theta) \]

这个联合概率也称为似然函数。其中\(x_i\)是已知的，\(\theta\)未知。似然函数是优化\(\theta\)的函数。

\[L(\theta)=\prod_{i=1}^lp(x_i;\theta) \]

目标是让\(L(\theta)\)最大化，因为这组样本既然出现了，那么它们出现的概率理应是最大的。即：

\[\max_\theta\prod_{i=1}^lp(x_i;\theta) \]

将似然函数取对数得到对数似然函数：

\[lnL(\theta)=ln\prod_{i=1}^lp(x_i;\theta)=\sum_{i=1}^llnp(x_i,\theta) \]

对数函数为增函数，因此最大化似然函数等价于最大化对数似然函数：

\[\max_\theta \sum_{i=1}^llnp(x_i,\theta) \]

高斯分布的最大似然估计

对于正态分布 \(N(\mu,\sigma^2)\),有样本集 \(x_1,\cdot \cdot \cdot x_n\),该样本集的似然函数：

\[L(\mu,\sigma)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=\frac{1}{\sqrt{2\pi}\sigma}\exp-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 \]

对数似然函数为：

\[lnL(\mu,\sigma)=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 \]

对\(\mu\)和\(\sigma\)求偏导，并令其等于0:

\[\begin{cases} \frac{\partial lnL(\mu,\sigma)}{\partial\mu}=-\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)=0 \\ \frac{\partial lnL(\mu,\sigma)}{\partial\sigma}=-\frac{n}{\sigma}+\frac{1}{\sigma^3}\sum_{i=1}^n(x_i-\mu)^2=0 \end{cases} \]

解得：

\[\mu=\frac{1}{n}\sum_{i=1}^nx_i \ \sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 \]

对于多维高斯分布\(N(\mu,\Sigma)\)，有类似的结果：

\[\mu=\frac{1}{n}\sum_{i=1}^nx_i \]

\[\Sigma=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)(x_i-\mu)^T \]

最大后验估计（MAP）

最大后验估计思想

最大后验估计则将参数 \(\theta\) 看做随机变量，假设它服从某种概率分布，通过最大化后验概率 \(p(\theta|x)\) 确定其值，其核心思想是使得在样本出现的条件下参数的后验概率最大化。求解时需要假设参数 \(\theta\) 服从某种分布（称为先验分布）。前面的最大似然估计的核心思想是既然这组样本出现了，那么它们出现的概率理应是最大化的。

假设参数服从 \(p(\theta)\) 。根据贝叶斯公式：

\[p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)}=\frac{p(x|\theta)p(\theta)}{\int_\theta p(x|\theta)p(\theta)d\theta} \]

其中 \(p(x|\theta)\) 是给定参数值时样本的概率分布，就是 \(x\) 的概率密度函数或概率质量函数，可以根据样本的值 \(x\) 进行计算。因此，最大化该后验概率等价于：

\[arg \max_\theta p(\theta|x)=arg \max_\theta \frac{p(x|\theta)p(\theta)}{\int_\theta p(x|\theta)p(\theta)dx}=arg \max_\theta p(x|\theta)p(\theta) \]

最大后验概率估计与最大似然估计的区别在于目标函数中多了 \(p(x)\) 这一项，如果 \(\theta\) 服从均匀分布，该项为常数，最大后验概率估计与最大似然估计一致。

高斯分布的最大后验估计

假设有正态分布 \(N(\mu,\sigma_v^2)\) ,其均值 \(\mu\) 未知，方差已知。有一组采样来自该分布的独立同分布样布 \(x_1,\cdots,x_n\) 。假设参数 \(\mu\) 服从正态分布 \(N(\mu_0,\sigma_m^2)\) 。最大后验概率估计的目标函数为：

\[L(\mu)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\mu-\mu_0)^2}{2\mu_m^2})\prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma_v}exp(-\frac{(x_i-\mu)^2}{2\sigma_v^2}) \]

贝叶斯估计

贝叶斯估计与最大后验概率估计的思想类似，区别在于不求出参数的具体值，而是求出参数所服从的概率分布。参数 \(\theta\) 的后验概率分布为

\[p(\theta|x)=\frac{p(x|\theta)p(\theta)}{\int_\theta p(x|\theta)p(\theta)d\theta} \]

\(p(\theta)\) 为参数的先验分布，\(P(x|\theta)\) 为给定参数时样本的概率分布。这里得到的是参数的概率分布，通常取其数学期望作为参数的估计值。即参数的估计值为

\[E[p(\theta|x)] \]

标签：似然,frac,mu,参数估计,theta,sigma,后验
来源： https://www.cnblogs.com/haibiandemoumoumou/p/16168411.html