二、数据分布特征的测度
作者:互联网
数据分布的特征
1、集中趋势:各数据向中心值靠拢或聚集的程度;【平均数、中位数、四分位数、众数】
2、离散程度:各数据远离其中心值的趋势;【极差、四分位差、方差、标准差、离散系数】
3、分布形状:数据分布偏斜程度和峰度【偏态系数、峰态系数】
Excel表示:
平均数:AVERAGE()
中位数:median
众数:MODE()
四分位数:QUARTILE(,1) 1表示1/4位,2、3
极差:MAX()-MIN()
方差:Var()
标准差:stdev.s()
集中趋势的度量
集中趋势只是数据分布的特征,它所反映的是各变量值向其中心值聚集的程度。
一、平均数(mean)
一组数据相加后除以数据的个数所得到的结果 x̅(x-bar)
二、中位数(mediam)和众数()
中位数:一组数据排序后处于中间位置上的变量值
n个数据,n为奇数-直接选中间值为中位数
n为偶数,-(n+1)/2
四分位数:一组数据排序后处于25%和75%位置上的值
SPS:1=n+1/4 Q3:3(n+1)/4
Excel:Q1=(n+3)/4 Q3:(3n+1)/4
如果位置是整数,四分位数就是该位置对应的值;如果是在整数加0.5的位置上,则 四分位数取该位置两侧值得平均数;如果位置是在整数加0.25或0.75得位置上,则四分位数等于该位置前面得值加上按比例分摊位置两侧数值得差
eg:
750、780、850、960、1080、1250、1500、1630、2000
Q1:n/4=2.25 Q1=780+(850-780)0.25=797.5
Q3:3n/4=6.75 Q3=1250+(1500-1250)*0.75=1437.5
结果:由于25%75%包含了50%的数据,有大约一半的员工工资收入在797.51437.5元之间。
三、众数(mode)
众数:一组数据中出现频数最多的数值 。
四、各度量值的比较
平均数、众数、中位数都是描述数据集中趋势的统计量
平均数容易受到极端值的影响
当数据位偏态分布时候,考虑中位数、众数比较有代表性。
平均数<中位数<众数 左偏分布-》存在极小值
众数<中位数<平均数 右偏分布-》存在极大值
离散程度的度量
各变量值远离中心值的程度,也称离中趋势。
数据离散程度越大,集中趋势的测度值对该组数据的代表性越差
一、极差和四分位差
极差:一组数据的最大值与最小值之差R-》参考值 2000-750=1250元
二、四分位差:
上四分位数与下四分位数之差-》反应中间50%数据的离散程度,值越小,说明中间数据越集中;值越小,中间的数据越分散
1437.5-797.5=640元
三、方差和标准差
方差:各变量值与其平均数离差平方的平均数
标准差:方差的平方根
方差、标准差:在实际中应用最广泛的离散程度度量值,它能准确地反应出数据的离散程度
与方差不同的是标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚,因此,在实际问题进行分析时,更多地使用标准差
方差:
s2=(1500-1200)2+(7500-1200)2…(1630-1200)2/(9-1)=186350元
标准差:
s=√186350=431.683元
标准差时反应数据差异水平的绝对值,标准差数值的大小受原始数据绝对值大小的影响,另一方面标准差与原始数据的计量单位相同。对于不同组别的数据,如果原始数据的绝对值相差较大或计量单位不同时,不能用标准差比较离散程度 需要用到离散系数
三、离散系数
离散系数:一组数据的标准差与其相应的平均数之比-》主要用于比较不同样本数据的离散程度,离散系数越大,数据离散程度大。
偏态与峰态的度量
一、偏态及其测度
偏态:数据分布的不对称性
峰态:数据分布的平峰或尖峰程度
添加数据分析项:
文件-》选项-》加载项-》管理-》分析工具库
Excel操作输出:
数据-》数据分析-》统计描述 输出如下数据,
本章小结:
集中趋势:平均数、中位数、分位数、众数。平均数常用但是受极端值影响,中位数与分位数不受极端值的影响,众数很少有到。
离散程度:极差、四分位差、方差、标准差、离散系数等。离散系数主要用于对不同组别数据离散程度的比较。
众数、中位数、平均数==》可以代表大多数
标准差大==》有较大差异
偏态系数>1==》偏斜程度大
标签:测度,特征,平均数,离散,数据分布,标准差,四分,众数,数据 来源: https://blog.csdn.net/jq_123321/article/details/113309490