相关性分析
作者:互联网
相关性分析的基本理论
判断两个变量是否具有线性相关关系最直接的方法是直接绘制散点图,看变量之间是否符合某个变化个规律。当需要同时考察多个变量间的相关关系时,一一绘制他们间的简单散点图是比较麻烦的。此时可以利用散点矩阵图同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。
相关性分析是研究现象之间是否存在某种依存关系,并对具有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间相关关系的一种统计方法。
为了更加准确地描述变量之间的线性相关程度,通过计算相关系数来进行相关分析,在二元变量的相关分析过程中,比较常用的有Pearson(皮尔逊)相关系数、Spearman(斯皮尔曼)秩相关系数和判定系数( Cosine similarity (余弦相关系数))。Pearson相关系数一般用于分析两个连续变量之间的关系,要求连续变量的取值服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用不Spearman秩相关系数(也称等级相关系数)来描述。
相关系数可以用来描述定量变量之间的关系。
相关系数与相关程度之间的关系如表1-1所示。
相关系数的取值范围 | 相关程度 |
---|---|
0≤ ∣r∣<0.3 | 低度相关 |
0.3≤ ∣r∣<0.8 | 中度相关 |
0.8≤ ∣r∣<1 | 高度相关 |
相分析的函数有:
DataFrame.corr()
Series.corr(other)
(1)如果DataFrame调用corr方法,那么将会计算每列两两之间的相似度,返回值为DataFrame。
(2)如果由序列调用corr方法,那么只是计算该序列与传入的序列之间的相关度,返回值为一个数值型,大小为相关度。
print(data.corr()) #相关系数矩阵,即给出任意两款菜之间的相关系数
print(data.corr()[u'百合酱蒸凤爪']) #显示这个菜品的相关系数矩阵
print(data[u'百合酱蒸凤爪'].corr(data[u'翡翠蒸香茜饺']))
标签:分析,变量,相关系数,相关性,corr,之间,相关,data 来源: https://blog.csdn.net/weixin_42782150/article/details/97630225