概率论
作者:互联网
概率密度
- 若\(X\)是是一个离散变量,那么\(p(x)\)有时被称作概率质量函数
probability mass function
学生t分布Student’s t-distribution
- 高斯分布的
precision
共轭先验conjugate prior
是伽马分布gamma distribution
- 单变量高斯乘以伽马分布,并对
precision
积分,可得到x的边缘分布\(p(x|\mu,a,b)\),定义新参数\(\nu=2a,\lambda=a/b\),则\(p(x|\mu,a,b)\)变成\(St(x|\mu,\lambda,\nu)\),得到学生t分布,其中\(\lambda\)有时称作t分布的precision
,尽管它一般不等于方差的倒数;\(\nu\)称作自由度degrees of freedom
,它的影响见下图:当\(\nu=1\)时,t分布变成柯西分布Cauchy distribution
,当\(\nu\to\infty\)时,t分布变成均值为\(\mu\)、precision为\(\lambda\)的高斯分布\(N(x|\mu,\lambda^{-1})\)
- t分布是通过将具有相同均值但不同精度的无穷多个高斯分布相加得到的,这可看成是一个高斯的无限混合
infinite mixture of Gaussians
(高斯混合Gaussian mixtures
的结果一般是一个具有比高斯分布更长尾巴的分布,如上图所示)。这给了t分布一个重要属性称作鲁棒性robustness
,指它对一些异常点outliers
的出现比高斯分布更不敏感。t分布的鲁棒性如下图所示:其中t分布的最大似然解可用EM(expectation- maximization)算法
- 在实际应用中,异常点的出现可能是因为生成数据的过程对应于一个带有长尾
heavy tail
的分布,或者仅仅是由于错误标记的数据。鲁棒性也是回归问题的一个重要属性,但回归的最小二乘法least squares
并不具有鲁棒性,因为它对应于(条件)高斯分布下的最大似然。在t分布等长尾分布的基础上建立回归模型,可得到了一个更健壮的模型 - 可推广到多变量t分布\(St(\vec{x}|\vec{\mu},\Lambda,\nu)\)
周期变量Periodic variables
- 尽管高斯分布本身和作为更复杂概率模型的构建块都具有重要的实际意义,但在某些情况下,它们不适合作为连续变量的密度模型。在实际应用中出现的一个重要情况是周期变量。
- 周期变量的一个例子是特定地理位置的风向。例如,我们可以测量若干天的风向值,并希望使用参数分布来总结这一点。另一个例子是日历时间,我们可能会对那些被认为是以24小时或一年为周期的量进行建模。这些量可以很方便地用角(极)坐标\(0\le\theta <2\pi\)来表示。
- 我们可能会倾向于选择某个方向作为原点来处理周期变量,然后应用常规分布,如高斯分布。然而,这种方法将产生强烈依赖于任意选择原点的结果。假设有两个观测处在\(\theta_1=1^{\circ}\)和\(\theta_2=359^{\circ}\),使用标准单变量高斯分布来建模它们,如果选择原点在\(0^{\circ}\),则这个数据集的样本均值为\(180^{\circ}\),标准差为\(179^{\circ}\)。但如果选择原点在\(180^{\circ}\),则均值为\(0^{\circ}\),标准差为\(1^{\circ}\)。我们显然需要发展一种特殊的方法来处理周期变量
- 观测的简单平均是强坐标相关
strongly coordinate dependent
,为找到均值的不变测量,将观测看成是单位圆上的点,用二维单位向量描述,如下图所示:\(\bar{x}\)是\(\{x_n\}\)的均值。这个定义会确保均值的位置独立于极坐标系的原点。\(\bar{x}\)一般在单位圆内。
- 考虑一个称为
von Mises
分布的高斯分布的周期性推广。这里我们将把注意力限制在单变量分布上,尽管周期分布也可以在任意维的超球面上找到 - 考虑具有周期为\(2\pi\)的分布\(p(\theta)\),任何定义在\(\theta\)上的概率密度\(p(\theta)\)不仅需要非负、积分为1,还需要满足周期性。即
- 可很容易得到一个类高斯
Gaussian-like
分布满足上述三个属性。如二维高斯分布\(p(\vec{x})\),如下图所示:常数\(p(\vec{x})\)的轮廓contours
是圆。现在假设我们考虑沿着一个固定半径的圆分布的值。然后通过构造,这个分布将是周期性的,尽管它不会被标准化。
- \(p(\theta|\theta_0,m)=\frac{1}{2\pi I_0(m)}exp\{mcos(\theta-\theta_0)\}\)称作
von Mises
分布,或circular normal
,其中\(\theta_0\)对应于分布的均值,m为concentration parameter
,类似于高斯分布的precision
,\(I_0(m)\)是标准化系数,是zeroth-order Bessel function of the first kind
,定义为\(I_0(m)=\frac{1}{2\pi}\int_0^{2\pi}exp\{mcos\theta\}d\theta\)。m越大,该分布会近似高斯分布。von Mises
分布以及\(I_0(m)\)如下图所示:其中\(A(m)=\frac{I_1(m)}{I_0(m)},I^{'}_0(m)=I_1(m)\)
标签:变量,mu,circ,分布,theta,概率论,高斯分布 来源: https://www.cnblogs.com/yao1996/p/13954021.html