其他分享
首页 > 其他分享> > 二、数据分布特征的测度

二、数据分布特征的测度

作者:互联网

数据分布的特征

1、集中趋势:各数据向中心值靠拢或聚集的程度;【平均数、中位数、四分位数、众数】
 2、离散程度:各数据远离其中心值的趋势;【极差、四分位差、方差、标准差、离散系数】
 3、分布形状:数据分布偏斜程度和峰度【偏态系数、峰态系数】

Excel表示:
平均数:AVERAGE()
中位数:median
众数:MODE()
四分位数:QUARTILE(,1) 1表示1/4位,2、3
极差:MAX()-MIN()
方差:Var()
标准差:stdev.s()

集中趋势的度量

集中趋势只是数据分布的特征,它所反映的是各变量值向其中心值聚集的程度。
一、平均数(mean)
  一组数据相加后除以数据的个数所得到的结果 x̅(x-bar)
二、中位数(mediam)和众数()
  中位数:一组数据排序后处于中间位置上的变量值
  n个数据,n为奇数-直接选中间值为中位数
  n为偶数,-(n+1)/2

四分位数:一组数据排序后处于25%和75%位置上的值
SPS:1=n+1/4 Q3:3(n+1)/4
Excel:Q1=(n+3)/4 Q3:(3n+1)/4
如果位置是整数,四分位数就是该位置对应的值;如果是在整数加0.5的位置上,则 四分位数取该位置两侧值得平均数;如果位置是在整数加0.25或0.75得位置上,则四分位数等于该位置前面得值加上按比例分摊位置两侧数值得差
eg:
750、780、850、960、1080、1250、1500、1630、2000
Q1:n/4=2.25 Q1=780+(850-780)0.25=797.5
Q3:3
n/4=6.75 Q3=1250+(1500-1250)*0.75=1437.5
结果:由于25%75%包含了50%的数据,有大约一半的员工工资收入在797.51437.5元之间。

三、众数(mode)
  众数:一组数据中出现频数最多的数值 。
四、各度量值的比较
平均数、众数、中位数都是描述数据集中趋势的统计量
平均数容易受到极端值的影响
当数据位偏态分布时候,考虑中位数、众数比较有代表性。

平均数<中位数<众数 左偏分布-》存在极小值
众数<中位数<平均数 右偏分布-》存在极大值

离散程度的度量

各变量值远离中心值的程度,也称离中趋势。
数据离散程度越大,集中趋势的测度值对该组数据的代表性越差

一、极差和四分位差
  极差:一组数据的最大值与最小值之差R-》参考值 2000-750=1250元
二、四分位差:
  上四分位数与下四分位数之差-》反应中间50%数据的离散程度,值越小,说明中间数据越集中;值越小,中间的数据越分散
1437.5-797.5=640元
三、方差和标准差
 方差:各变量值与其平均数离差平方的平均数
 标准差:方差的平方根
  方差、标准差:在实际中应用最广泛的离散程度度量值,它能准确地反应出数据的离散程度
  与方差不同的是标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚,因此,在实际问题进行分析时,更多地使用标准差

方差:
s2=(1500-1200)2+(7500-1200)2…(1630-1200)2/(9-1)=186350元
标准差:
s=√186350=431.683元
  标准差时反应数据差异水平的绝对值,标准差数值的大小受原始数据绝对值大小的影响,另一方面标准差与原始数据的计量单位相同。对于不同组别的数据,如果原始数据的绝对值相差较大或计量单位不同时,不能用标准差比较离散程度 需要用到离散系数
三、离散系数
 离散系数:一组数据的标准差与其相应的平均数之比-》主要用于比较不同样本数据的离散程度,离散系数越大,数据离散程度大。

偏态与峰态的度量

一、偏态及其测度
 偏态:数据分布的不对称性
 峰态:数据分布的平峰或尖峰程度

添加数据分析项:
  文件-》选项-》加载项-》管理-》分析工具库
Excel操作输出:
  数据-》数据分析-》统计描述 输出如下数据,
在这里插入图片描述

本章小结:

集中趋势:平均数、中位数、分位数、众数。平均数常用但是受极端值影响,中位数与分位数不受极端值的影响,众数很少有到。
离散程度:极差、四分位差、方差、标准差、离散系数等。离散系数主要用于对不同组别数据离散程度的比较。

众数、中位数、平均数==》可以代表大多数
标准差大==》有较大差异
偏态系数>1==》偏斜程度大

标签:测度,特征,平均数,离散,数据分布,标准差,四分,众数,数据
来源: https://blog.csdn.net/jq_123321/article/details/113309490