首页 > 其他分享> > 皮尔森相关系数(Pearson correlation coefficient)

皮尔森相关系数(Pearson correlation coefficient)

2021-10-04 10:34:11 作者：互联网

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ，是一种线性相关系数，是最常用的一种相关系数。记为r，用来反映两个变量X和Y的线性相关程度，r值介于-1到1之间，绝对值越大表明相关性越强。

统计学术语：

期望值：\(E(X)\) 表示随机变量 \(X\) 的期望值。

标准差：反映一个数据集的离散程度，是方差的算术平方根。

总体标准差：

\[\sigma = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n}} \]

样本标准差：

\[S = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n-1}} \]

协方差（Covariance）：在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的一种特殊情况，即当两个变量是相同的情况。

\[\begin{equation} \begin{aligned} Cov(X,Y) &= E[(X-E(X))(Y-E(Y))] \\ &= E(XY) - 2E(X)E(Y) + E(X)(Y) \\ &= E(XY) - E(X)E(Y) \end{aligned} \end{equation} \]

定义：

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：

\[\begin{equation} \begin{aligned} \rho_{X,Y} &= \frac{cov(X,Y)}{\sigma_X\sigma_Y} \\ &= \frac{E[(X-E(X))(Y-E(Y))]}{\sigma_X\sigma_Y} \end{aligned} \end{equation} \]

上式定义了总体相关系数，常用希腊小写字母 \(\rho\) 作为代表符号。估算样本的协方差和标准差，可得到样本相关系数(样本皮尔逊系数)，常用英文小写字母 r 代表：

\[r=\frac{\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\overline{Y})^2}} \]

\(r\) 亦可由\((X_i,Y_i)\)样本点的标准分数均值估计，得到与上式等价的表达式：

\[r=\frac{1}{n-1}\sum_{i=1}^n(\frac{X_i-\overline{X}}{\sigma_X})(\frac{Y_i-\overline{Y}}{\sigma_Y}) \]

其中 \(\frac{X_i-\overline{X}}{\sigma_X}\)，\(\overline{X}\)，\({\sigma_X}\) 分别是 \(X_i\) 样本的标准分数、样本平均值和样本标准差。

物理意义

皮尔森相关系数反映了两个变量的线性相关性的强弱程度，r的绝对值越大说明相关性越强。

当r>0时，表明两个变量正相关，即一个变量值越大则另一个变量值也会越大；
当r<0时，表明两个变量负相关，即一个变量值越大则另一个变量值反而会越小；
当r=0时，表明两个变量不是线性相关的（注意只是非线性相关），但是可能存在其他方式的相关性（比如曲线方式）；
当r=1和-1时，意味着两个变量X和Y可以很好的由直线方程来描述，所有样本点都很好的落在一条直线上。

本文整理自网络

标签：coefficient,Pearson,frac,相关系数,样本,overline,皮尔森,sigma,sum
来源： https://www.cnblogs.com/aspiration2016/p/15365882.html