首页 > 其他分享> > 【数据科学复习 2】多维随机变量

【数据科学复习 2】多维随机变量

2022-01-01 09:33:14 作者：互联网

本来试图用pad记笔记的, 结果pad上的markdown编辑器要么太烂，要么收费，于是乎还是背着大电脑出发吧。

动机:把书读薄, 便于之后查阅. 不至于像微积分一样学完即忘. 事实上从考试的角度来说, 花时间整理笔记远没有仅保持短期记忆而把时间花在刷题上来得有效. 但我们不仅是应试机器 right?

1. 随机向量的分布
- 1.1 离散型随机向量
- 1.2 连续型随机向量
2. 边缘分布
3. 条件分布与随机变量的独立性
- 3.1 条件概率分布
- 3.2 独立性
4. 随机变量函数的分布
- 4.1 一般性函数
- 4.2 几个重要的函数
5. 协方差与相关系数
- 5.1 协方差
- 5.2 相关系数

1. 随机向量的分布

1.1 离散型随机向量

1.1.1 定义

随机向量\(X\)满足

\[X=(X_1,X_2,\dots,X_n) \]

如果\(X_i\)是一维离散型随机变量, 则\(X\)为离散随机向量

1.1.2 概率分布

记\(X_i\)可能的全部取值为\(a_{i1},a_{i2},\dots\), 则事件\(\{X_1=a_{1j_1},X_2=a_{2j_2},\dots,X_n=a_{nj_n}\}\)的概率

\[p(j_1,j_2,\dots,j_n)=P(X_1=a_{1{j_1}},X_2=a_{2{j_2}},\dots,X_n=a_{nj_n}) \]

\(j_i=1,2,\dots\)

1.1.3 例子

多项分布

设\(A_1,A_2,\dots,A_n\)是某一试验下的完备事件群（每次试验必发生且仅发生一个）. 设\(p_i\)为\(A_i\)发生的概率. 显然有\(p_i>0,\sum p_i=1\)

现独立重复试验\(N\)次, \(X_i\)为\(A_i\)在这\(N\)次试验中发生的次数. 考虑随机向量\(X=(X_1,X_2,\dots,X_n)\)，其取指范围可抽象为\(X_i\geq0,\sum X_i=N\). 记为满足多项分布\(M(N;p_1,p_2,\dots,p_n)\)

为定出这个分布, 要计算事件\(B=\{X_1=k_1,\dots,X_i=k_i,\dots,X_n=k_n\}\)的概率.

\[P(B)=\frac{N!}{k_1!k_2!\dots k_n!}p_1^{k_1}\dots p_n^{k_n} \]

事实上有:

\[\sum \frac{N!}{k_1!k_2!\dots k_n!}p_1^{k_1}\dots p_n^{k_n}=(p_1+p_2+\dots+p_n)^N=1 \]

多项分布是最实用的离散型随机向量.在\(N=2\)时退化为二项分布

1.2 连续型随机向量

随机向量\(X=(X_1,X_2,\dots,X_n)\)的值可看作欧式空间\(R^n\)中的一个点.如果\(X\)的全部取值能充满\(R^n\)中的某个区域则称其为连续的.

若\(f(x_1,\dots,x_n)\)是定义在\(R^n\)上的非负函数, 使得对\(R^n\)中的任何集合\(A\),有

\[P(X\in A)=\int_A \dots\int f(x_1,\dots,x_n)dx_1\dots dx_n \]

则\(f\)是\(X\)的概率密度函数(\(f\)存在也是\(X\)连续的充要条件).

\(f\)应当满足\(\int_{-\infty}^{\infty} \dots\int f(x_1,\dots,x_n)dx_1\dots dx_n=1\)

\(X_i\)均连续并不能得到\(X\)连续.

还可以用分布函数的形式描述概率分布:\(F(x_1,x_2,\dots,x_n)=P(X_1\leq x_1,X_2\leq x_2,\dots)\)

但在多维情况下很少使用

2. 边缘分布

随机向量\(X=(X_1,X_2,\dots,X_n)\)有其\(n\)维分布\(F\).而\(X_i\)都是一维随机变量也有其分布\(F_i\),这些分布就称之为边缘分布。

即在组合\(X\)前,随机变量\(X_i\)自身的分布. 有趣的是,我们可以通过总和分布\(F\)推知\(F_i\),即\(F_i\)完全由\(F\)确定.

离散型

边缘分布由下式确定：

\[P(X_i=a_{i_k})=\sum_{j_2,\dots j_n}p(k,j_2,\dots,j_n) \]
连续型

\[F_1(x_1)=P(X_1\leq x_1,X_2\leq\infty)=\int_{-\infty}^{x_1}dt_1\int_{-\infty}^{\infty}f(t_1,t_2)dt_2 \]
求导可得边缘密度函数为

\[f_1(x_1)=\int_{-\infty}^{\infty}f(x_1,x_2)dx_2 \]

3. 条件分布与随机变量的独立性

在讨论所谓的“条件分布”之前. 需要指出的是我们之前讨论的所有事件的概率都是“有条件的”，即与这事件联系着的试验的条件. 如骰子是均匀的离放弃且抛掷的高度足够大之类. 而下面所讨论的条件是指在这些基本条件之外附加的条件, 一般采取如下形式：给定一些随机变量的值, 求另一些随机变量的分布.

3.1 条件概率分布

离散型

\[P(X_1=a_i|X_2=b_j)=P(X_1=a_i,X_2=b_j)/P(X_2=b_j)=\frac{p_{ij}}{\sum p_{kj}} \]
连续型

\[f_1(x_1|x_2)=f(x_1,x_2)/f_{2}(x_2) \]
\[f_1(x_1|x_2)*f_{2}(x_2)=f(x_1,x_2) \]

3.2 独立性

一般来说\(f_1(x_1|x_2)\)是随\(x_2\)变化而变化的.这反映了\(X_1\)与\(X_2\)在概率上有相依关系的事实. 如果\(f_1(x_1|x_2)\)不依赖于\(x_2\)只是\(x_1\)的函数记为\(g(x_1)\). 这时就称\(X_1\)与\(X_2\)独立. 可推出下式：

即

\[f(x_1,x_2)=f_1(x_1)f_2(x_2) \]

两个很有用的结论：

4. 随机变量函数的分布

4.1 一般性函数

\(Y=g(X)\), \(g\)严格单调且导数存在

记\(h=g^{-1}\)

\[l(y)=f(h(y))|h'(y)| \]

\(Y=X^2\)

\[l(y)=\frac{1}{2}y^{-1/2}[f(\sqrt y+f(-\sqrt y))],y>0 \]
\(Y_1=g_1(X_1,X_2),Y_2=g_2(X_1,X_2)\)

\[l(y_1,y_2)=f(h_1(y_1,y_2),h_2(y_1,y_2))*|J(y_1,y_2)| \]
\(Y_1=g_1(X_1,X_2)\)
- 对任何\(y\),将\(g_1(X_1,X_2)\leq y\)对应的区域找出来然后积分.
- 配函数\(Y_2=g_2(X_1,X_2)\),使得\((X_1,X_2)\to (Y_1,Y_2)\)是一一变换, 然后套用上式

4.2 几个重要的函数

\(Y=X_1+X_2\)
- 如上节所说, 一方面可以找出\(X_1+X_2\leq y\)对应的区域积分.另一方面可以新配一个函数\(Z=X_1\),构成\((X_1,X_2)\to (Y_,Z)\)的一一变换.
最后得到的结果为(若采用第一种方法需要在积分号下求导数，第二种方法则没有此限制):

\[l(y)=\int_{-\infty}^{\infty}f(y-x,x)dx=\int_{-\infty}^{\infty}f(x,y-x)dx \]
若\(X_1,X_2\)相互独立可进一步得到卷积公式:

\[l(y)=\int_{-\infty}^{\infty}f_1(y-x)f_2(x)dx=\int_{-\infty}^{\infty}f_1(x)f_2(y-x)dx \]
个人对积分号下求导的理解:可将定积分理解为定区间上的合式, 这样就可以利用求导的线性性. 即\([f(x)+g(x)]'=f'(x)+g'(x)\). 当然, 分析中对此有严格约束, 见上文链接.
\(Y=max\{X_1,X_2\}\)

若\(X_1,X_2,\dots,X_n\)相互独立