其他分享
首页 > 其他分享> > 数据挖掘2019.9.9

数据挖掘2019.9.9

作者:互联网

数据的统计描述

计量资料的统计描述及广义知识挖掘
概念:即用少量几个统计指标对画出原始数据的特征称为统计描述。
方法:
①通过频数表描述数据特征(了解数据的分布特征)

分布情况;偏态或正太分布
取值情况:变量值取值范围
集中趋势:变量值集中位置
段组的频数作为概率的估计
rnorm(100,mean=0,sd=1)#服从正态分布的随机数
runif(100,min=0,max=1)#均匀分布随机数
par(mfrow=c(1,2))
hist()#绘制直方图
②用统计指标 定量描述数据的特征

集中趋势指标
平均数 用于描述一组同质计量资料的集中趋势,反应一组观察值的平均水平或者一个分布的平均的指标。
种类
算数平均数/均数
mean()
加权平均数
weight.mean()
几何平均数
中位数
median()
实用情况:
1·数据分布为正太时,选用中位数描述,并有均数约等于中位数
2·数据分布为偏态,选取中位数描述较好
3·数据为等级和相差较大时,选取几何均数描述。
作用:是一组计量数据平均水平的代表值:可作为不同组间的比较值。
离散趋势指标
经常用的统计图
(直方图,柱形图,折线图,散点图)

离散趋势指标
变异性;同质条件下的观察单位,其同一指标的数据间的差异。
描述计量资料数据间离散(编译,参差不齐)程度的指标——变异指标
种类:
1·全局/极差:R=最大值——最小值
四分位间距QR=P75-P25
方差与标准差
变异系数CV=标准差/均数
(又称离散系数,即标准差与均数之比用百分位数表示。应用范围:1·组间单位不同时变异程度的比较,2·比较组单位相同,但均数相差悬殊的组间变异程度,意义:CV越大,表示数据变异越大。)

偏态分布或特定资料如生存时间,病程,潜伏期时间等
1)用中位数和四分位间距描述.
表达形式:M,四分位间距(QR)
2)用百分位数P25,P50,P75 描述分布位置。

计量资料常用的检验方法
t检验
(两样本均数比较,样本均数与总体均数比较(单一样本的t检验))
配对t检验
(同体自身前后,配对资料)
U检验
(两大样本资料)
方差分析
(两组及两组以上)
秩和检验
(偏态分布资料)

正态性和方差齐性检验
正太检验
如(Jarque-beta 检验(jarque.bera.test,tseries包))—基于数据样本
的偏度和峰度,评价给定数据服从未知均数和方差正太分布的假设是否成立
方差齐性检验F检验
原理:较大样本方差与较小样本方差的商是否接近1 若接近1,则可认为
两样本代表的总方差齐,否则,两方差不齐。

t检验
两小样本(n小于30)均数的比较
两小样本均数的t检验要求两样本服从正太分布,方差齐性
(单一样本的t检验,两组样本的t检验,配对样本的t检验)
在这里插入图片描述
t分布中t界值和概率的关系
在这里插入图片描述
在这里插入图片描述

标签:2019.9,均数,样本,中位数,检验,指标,数据挖掘,描述
来源: https://blog.csdn.net/weixin_45482415/article/details/100662619