其他分享
首页 > 其他分享> > 均值、方差、标准差、协方差、均方差、均方误差是些啥

均值、方差、标准差、协方差、均方差、均方误差是些啥

作者:互联网

均值

均值是表示一组数据集中趋势的数量,指在一组数据中所有数据之和再除以这组数据的个数。是反映数据集中趋势的一项指标。

在统计工作中,均值和标准差是描述数据资料集中趋势和离散程度的两个最重要的度量值。

均值包括:算术平均值、几何平均值、调和平均值、加权平均值、平方平均值、指数平均值、中位数。

算术平均值机算公式如下,其他均值略:

 

方差

方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。

方差的单位是样本数据单位的平方。

如果数据的单位是米,方差的单位就是米²。

如果数据的单位是秒,方差的单位就是秒²。

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。

疑问1:方差为什么又叫离均差平方的算术平均数?

 

疑2:有了方差为什么需要标准差?

 

标准差

标准差和数据的单位一致。是方差的算术平方根,用σ西格玛表示

标准差也被称为标准偏差、实验标准差,在概率学中常使用作为统计分布程度上的测量依据。

方差与标准差都是用来描述数据离散程度的。 标准差在方差基础上多了个根号,多了一次根号计算对数据离散程度的描述相对于方差有什么优势?

比如一个班男生的平均身高是180cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是180±10cm,方差就无法做到这点。

如果你是教练,你想知道哪位球员发挥最稳当。因为你需要一支值得信赖的球员队伍,他最不想要的就是表现时好时坏,水平反复无常,波动很大的队员。他需要得是分高,且发挥稳定的球员。

如果你像巴菲特一样在做价值投资,面对两支股票历年股价的曲线图,你可以直观的感受到哪只股票的波动比较大。
所以标准差就是为了描述数据集的波动大小、离散程度、变异性而发明的。

疑问3:标准差、总体标准差、样本标准差、标准误、变异系数之间又是啥关系?

答案在这里:https://blog.csdn.net/realmardrid/article/details/116720486

 

疑问5:那么...拉依达准则(即3σ准则)又是啥?

有时在数据分析上,需要对某些偏离点进行剔除,我们可以使用拉依达法则(3σ),以提高数据的准确性。

拉依达准则是指先假设一组检测数据只含有随机误差(啥意思?后面说),对其进行计算处理得到标准差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。

在 正态分布中σ代表标准差,μ代表均值 。x=μ即为图像的对称轴
3σ原则为
数值分布在(μ-σ,μ+σ)中的概率为0.6826
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)] 区间

内,超出这个范围的可能性仅占不到0.3%.

3σ准则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满足正态分布.如果一组测量数据中某个测量值的残余误差的绝对值 νi>3σ,则该测量值为坏值,应剔除.通常把等于 ±3σ的误差作为极限误差,对于正态分布的随机误差,落在 ±3σ以外的概率只有 0.27%,它在有限次测量中发生的可能性很小,故存在3σ准则.3σ准则是最常用也是最简单的粗大误差判别准则,它一般应用于测量次数充分多( n ≥30)或当 n>10做粗略判别时的情况.

3σ准则有什么用?

一、python中使用3σ原则来删除数据中的异常值

#用numpy随机生成100个服从正态分布的随机数
num=np.random.randn(100)
#随机插入两个异常值进去,此时num.shape[0]==102
np.apend(num,[10,20])

#设定法则的左右边界
left=num.mean()-3*num.std()
right=num.mean()+3*num.std()

#获取在范围内的数据
new_num=num[(left<num)&(num<right)]
new_num.shape
#结果为100,已经剔除了刚开始插入的两个异常值

二、股票交易中剔除干扰数据

在分析当季净利润同比增长率数据时,往往会被其中一些公司的数据干扰,某个公司2017 三季度净利润同比增长率高达100000% ,实际上99%的公司当季净利润同比增长达不到这个数。此时数据去极值就显得尤为关键,可以剔除掉数据干扰项, 提高数据结论的准确性。 

去极值的处理方法就是确定该项指标的上下限,不在此区间的数据统统即为限值。 

一般上下限数值判断标准有三种,分别是MAD(MedianAbsolute Deviation)即绝对中位差(这又是什么?) 、 3σ(好熟悉的样子)、百分位法。

3σ标准差。标准差本身可以体现因子的离散程度,是基于因子的平均值 Xmean 而定的。 
在离群值处理过程中,可通过用 Xmean±nσ 来衡量因子与平均值的距离。 
 标准差法处理的逻辑与MAD 法类似: 
    1. 计算出因子的平均值与标准差。
    2. 确认参数n(假定n = 3)。
    3. 确认因子值的合理范围为 [Xmean−nσ,Xmean nσ],对因子值作如下的调整。

def filter_extreme_3sigma(series,n=3): #3 sigma 
  mean = series.mean() 
  std = series.std() 
  max_range = mean + n*std 
  min_range = mean - n*std 
  return np.clip(series,min_range,max_range) 
    #对原始数据进行 3σ 处理后的结果: 
fig = plt.figure(figsize = (20, 8)) 
ax = data['1/PE'].plot.kde(label = 'Original_PE') 
ax = filter_extreme_3sigma(data['1/PE']).plot.kde(label = '3sigma') 
ax.legend() 

三、等等

 

协方差

          稍后更新。。。

均方差

      稍后更新。。。

均方误差

          稍后更新。。。

 

 

 

 

 

 

 

 

 

 

 

 

标签:平均值,方差,均值,均方,协方差,num,标准差,数据
来源: https://blog.csdn.net/realmardrid/article/details/116719206