其他分享
首页 > 其他分享> > T检验与Z检验的区别

T检验与Z检验的区别

作者:互联网

概念区别:T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数平均数的差异是否显著。

区别一:z检验适用于变量符合z分布的情况,而t检验适用于变量符合t分布的情况;

区别二:t分布是z分布的小样本分布,即当总体符合z分布时,从总体中抽取的小样本符合t分布,而对于符合t分布的变量,当样本量增大时,变量数据逐渐向z分布趋近;

区别三:z检验和t检验都是均值差异检验方法,但t分布逐渐逼近z分布的特点,t检验的运用要比z检验更广泛,因为大小样本时都可以用t检验,而小样本时z检验不适用。SPSS里面只有t检验,没有z检验的功能模块。

详细:

t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。t检验是戈斯特为了观测酿酒质量而发明的。

戈斯特在位于都柏林的健力士酿酒厂担任统计学家,基于Claude Guinness聘用从牛津大学和剑桥大学出来的最好的毕业生以将生物化学及统计学应用到健力士工业程序的创新政策。戈斯特于1908年在Biometrika上公布t检验,但因其老板认为其为商业机密而被迫使用笔名(学生)。实际上,跟他合作过的统计学家是知道“学生”的真实身份是戈斯特的。

双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是独立样本t检验,一是配对样本t检验。

独立样本t检验统计量为:

S12和 S22为两样本方差;n1 和n2 为两样本容量。

2.配对样本t检验可视为单样本t检验的扩展,不过检验的对象由一群来自常态分配独立样本更改为二群配对样本之观测值之差。

若二群配对样本x1i与x2i之差为di=x1i−x2i独立且来自常态分配,则di之母体期望值μ是否为μ0可利用以下统计量

 matlab命令:

(1) [h,sig,ci,zval] = ztest(x,mu0,sigma,alpha,tail) 对已知方差的单个总体均值进行Z检验. 进行显著性水平为 的Z假设检验, 以检验标准差为 的正态分布样本的均值与 的关系. 并可通过指定tail的值来控制备择假设的类型. tail 的取值及表示意义如下:

tail=0 备择假设为  (缺省值);

tail=1备择假设为 ;

tail=-1备择假设为 .       (原假设则为 )

·输出变量含义:

h——如果h=0, 则接受 ; 如果h=1, 则拒绝 而接受备择假设 ;

sig——Z的观察值在 下较大或统计意义上较大的概率值;

ci——方差 未知时均值 的 的置信区间.

zval——Z统计量 的观测值.

·单边检验对应单侧区间估计.

(2) [h,sig,ci,tval] = ttest(x,mu0,alpha,tail) 格式调用中无“tval”这个输出变量, 但可加上此项.

tval——包含两个结果: tstat表示t统计量 的值; df表示t分布的自由度.

 (3) [h,p,jbstat,cv] = jbtest(x,alpha) 对“单个总体服从正态分布(未指定均值和方差)”假设进行显著水平为 的Jarque-Bera检验. 此检验基于x的偏度与峰度. 对于真实的正态分布, 样本偏度应接近于0, 样本峰度应接近于3. Jarque-Bera检验通过 统计量来判定样本偏度和峰度是否与它们的期望值显著不同.

·输出变量含义:

h——如果h=0, 则接受“ : 认为x来自正态总体”; 如果h=1, 则接受备择假设“ : 认为x不是来自正态总体”;

p——检验的概率p-值;

jbstat——检验统计量的值;

cv——判断是否拒绝原假设的关键值.

(4) [h,p,ksstat,cv] = kstest(x,cdf,alpha,tail) 对“x的总体服从由两列矩阵cdf指定的分布G”假设进行显著水平为 的Kolmogorov-Smirnov检验. 矩阵cdf的第一列包含可能的x值, 第二列包含相应的理论累积分布函数值G(x0). 在可能的情况下, 应定义cdf使每一列包含x中的值. 如果cdf=[ ], kstest( )将使用标准正态分布.

 (5) [h,p,ksstat] = kstest2(x,cdf,alpha,tail) 对“两个样本来自同一连续分布”假设进行显著水平为的Kolmogorov-Smirnov检验. 对于大容量的样本来说, p-值将很精确, 一般来说, 当样本容量N1和N2满足 时, p-值即可认为是精确的.

(6) normplot(x) 绘出x中数据的正态检验概率图. 如果x是一个矩阵, 则对每一列绘出一条线. 图中样本数据用符号‘+’来表示, 叠加在数据上的实线是数据的第一个与第三个四分位点之间的连线 (为样本顺序统计量的鲁棒线性拟合). 这条线延伸到样本数据的两端, 以便估计数据的线性度. 如果数据是来自一个正态分布,则‘+’线近似地在一直线上. 一般地, 中间的点离直线位置的偏差不能过大, 两头的点的偏差可以允许大一些. 当中间的点离直线位置偏差太大时, 就认为x来自其它分布.

(7) qqplot(x,y) 绘出两样本的分位数-分位数图. 图中样本数据用符号‘+’来表示, 叠加在数据上的实线是各分布的第一个与第三个四分位点之间的连线 (为两个样本顺序统计量的鲁棒线性拟合). 这条线延伸到样本数据的两端以便估计数据的线性度. 如果两个样本来源于同一个分布, 则‘+’线近似地在一直线上.

qqplot(x) 绘出样本x的分位数-正态分布的理论分位数图. 如x为正态分布, 则‘+’线近似地在一直线上.

【例3-1】(例3.4) 一台包装机装洗衣粉, 额定标准重量为500g, 根据以往经验, 包装机的实际装袋重量服从正态分布 , 其中 g, 为检验包装机工作是否正常, 随机抽取9袋, 称得洗衣粉净重数据如下 (单位: g):

497   506   518   524   488    517   510   515   516

若取显著性水平 , 问这包装机工作是否正常?

>> x=[497,506,518,524,488,517,510,515,516];

>> [h,sig,ci,zval]=ztest(x,500,15,0.01,0)

h =     0                          %接受

sig =    0.0432                         % 为真条件下P( )的值

ci =  497.2320  522.9903         % 未知时 的置信水平为0.95的双侧置信区间

zval =    2.0222                %Z统计量 的值.

所以认为包装机工作正常.

【例3-2】(例3.5) 某部门对当前市场的价格情况进行调查. 以鸡蛋为例, 所抽查的全省20个集市上, 售价分别为 (单位: 元/500克)

3.05,    3.31,    3.34,    3.82,    3.30,    3.16,    3.84,    3.10,    3.90,    3.18,

3.88,    3.22,    3.28,    3.34,    3.62,    3.28,    3.30,    3.22,    3.54,    3.30.

已知往年的平均售价一直稳定在3.25元/500克左右, 在显著性水平 下, 能否认为全省当前的鸡蛋售价明显高于往年?

>> x=[3.05,3.31,3.34,3.82,3.30,3.16,3.84,3.10,3.90,3.18,...

3.88,3.22,3.28,3.34,3.62,3.28,3.30,3.22,3.54,3.30];

>> [h,sig,ci,tval]=ttest(x,3.25,0.025,1)

h =     1

sig =    0.0114

ci =    3.2731       Inf

tval =     tstat: 2.4763       df: 19

所以认为全省当前的鸡蛋售价明显高于往年.

 

标签:区别,样本,检验,tail,分布,sig,正态分布
来源: https://blog.csdn.net/sinat_35637310/article/details/120689777