协方差矩阵的意义与见解
作者:互联网
协方差矩阵对学统计的来说很重要,本文详细说明其相关知识(计算公式等)以及来历与实质含义。其实质主要是从一维到多维的一个推广。从以下几个点去描述它的来历:
一、低维样本情形的统计量:均值、标准差、方差
二、高维样本情形的统计量::均值、协方差
一、低维情形的统计量:均值、标准差、方差
假设自然数集中抽取一个含有3个样本的集合 :=(1,2,3), 我们简记这个集合的一些统计概念: 均值: ,方差:,标准差: (), 依次给出这些概念的公式描述。
均值一般指平均数。平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数关键在于确定“总数量”以及和总数量对应的总份数。对于样本,其平均值为
标准差: 简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
对于我们设的样本,其标准差为
方差=标准差的平方。对于我们设的样本,其方差为:
注: 如是总体(即估算总体方差),根号内除以n(对应excel函数:STDEVP); 如是抽样(即估算样本方差),根号内除以(n-1)(对应excel函数:STDEV);
二、高维矩阵情形的统计量:均值、协方差
前面讲的是对于一维样本但往往现实生活中样本的特征是多维的,下面假设有3个样本(3行),每个样本有2个特征(2列):
上面这个样本不妨假设成3个哥们儿:小王、小二和小三, 第一个特征是知识储备量,第二个特征是受女孩子欢迎度。比如:小王知识储备量为2个单位,受欢迎度为2。 面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个知识储备量跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量。
首先记第一个特征(第一列)为, 记第二个特征(第二列)为, 很容易计算这两个特征的均值:
以及其方差:
我们仿照方差的定义 来 定义两个特征偏离其均值的程度,记为:
因此协方差矩阵可以写成如下形式:
如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越知识越多就越受女孩子欢迎,那必须的~结果为负值就说明负相关的,越有知识女孩子越讨厌。 如果为0,也是就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
码字不易, 转载请注明出处。
标签:见解,均值,方差,特征,样本,矩阵,协方差,标准差 来源: https://blog.csdn.net/nobles007820/article/details/113176475