其他分享
首页 > 其他分享> > 商务统计学(六)第九章 第一部分 假设检验的基本概念以及两种对均值的假设检验方法

商务统计学(六)第九章 第一部分 假设检验的基本概念以及两种对均值的假设检验方法

作者:互联网

商务统计学(六)第九章 第一部分 假设检验的基本概念以及两种对均值的假设检验方法

 

《商务统计学》第七版

作者:戴维·莱文等,审校:胡大源

“先把书读厚,再把书读薄” --- 华罗庚

 

目录

 

第九章 假设检验基础:单样本检验

在第7章中你学会了如何判定一个样本的均值是否与其来源总体相一致?

而现在你需要处理:怎样利用样本均值来证实一个有关总体均值的判断?

面对这样的问题你需要使用假设检验的推断方法(Look,这就是我喜欢这本书的地方)

9.1 基本假设的检验方法

假设检验

假设检验需要你陈述一个没有歧义的论断,假设检验一般从关于某一总体参数的理论、主张或者断言开始。

零假设

零假设用于表示现状,零假设仍然是关于总体参数的假设。

\[比如自动装盒过程中,若果运行正常,那么平均每盒产品的重都与标注重量相同。即,H_0:\mu=标注值 \]

备择假设

\[备择假设,H_1是与零假设H_0相对立的。在上述例子中可以表示为H_1:\mu\neq 标注值 \]

在许多研究中,备择假设都不是研究的重点,因为如果从样本中得到的证据足以证明零假设不太为真,那么就可以拒绝零假设,从而得到备择假设所代表的结论。(但如果零假设没有被拒绝,你无法证明某一步出现了问题,那么你可以继续相信未被证实的零假设)

零假设包含等号而备择假设不包含等号

检验统计量的临界值

在决策的过程中,如果依靠个人主观判断(比如手样本均值与总体均值)什么样是“很接近”,什么样式“相差很大”,就太随意了。

假设检验论提供了清晰的定义来衡量这些差别,使得量化了决策过程,从而计算出在零假设成立的情况下,得到某一样本值的概率

要做到这一点

拒绝域和非拒绝域

我们可以将检验统计量的抽样分布分为两个区域:拒绝域和非拒绝域

 

根据假设检验方法进行决策的风险

用假设检验进行决策时,存在得出错误结论的风险,分为两类

  1. 第一类错误错误地拒绝了一个正确的零假设。发生第一类错误的概率用alpha来表示。代表“错误报警”。
  2. 第二类错误没有拒绝一个错误的零假设。发生第二类错误的概率用beta来表示。代表“坐失良机”。(译者挺有意思)

根据传统

 

均值的Z检验(标准差已知)

\[Z_{STAT}表示以标准差为单位度量的\bar{X}与\mu之间的差距\\ Z_{STAT}=\frac{\bar{X}-\mu} {\frac{\sigma} {\sqrt{n}}}\\ (公式与均值抽样分布的Z值的相等)\\ 表示以标准差为单位度量的\bar{X}与\mu之间的差距\\ Z_{STAT}的值在假设检验临界值法中被使用 \]

 

假设检验临界值法

在假设检验法中需要将检验统计量(Zstat)与划分拒绝域与非拒绝域的临界值进行比较。

这里的临界值可表示为由显著性水平决定的标准化的Z值。

例如,我们使用0.05的显著水平,由于零假设包含等号而备择假设不包含等号,我们使用双侧检验(暂时不知道包不包含等号与进行双侧检验有什么关系),因此0.05被平分给两个拒绝域,每部分0.025。对正态分布而言,两处临界值的值分别就为-1.96和1.96(因为累积区域大小分别是0.025和0.975,然后对照累计标准正态分布表得出)。因此,决策准则为

\[若Z_{STAT}>+1.96或Z_{STAT}<-1.96,则拒绝H_0\\ 否则,不能拒绝H_0 \]

临界值法进行假设检验的六个步骤

  1. 写出零假设和备择假设
  2. 确定显著水平alpha(根据问题中犯第一类错误和第二类错误的风险的相对重要性来确定),以及样本容量n
  3. 确定要使用的检验统计量,以及抽样分布
  4. 确定划分拒绝域和非拒绝域的临界值
  5. 收集整理样本数据,计算检验统计值
  6. 判定假设能否成立,做出决断(检验统计量落入拒绝域则拒绝假设,落入非拒绝域则不能拒绝假设)

 

假设检验的p值法

p值(p value)是在零假设为真的情况下使得某一检验统计量等于或大于样本结果的概率。p值经常被称为“观察到的显著水平”。根据p值来确定拒绝域和非拒绝域是假设检验的另一种方法:

\[如果p值大于或等于显著性水平\alpha,则不能拒绝零假设,如果p值小于\alpha,则拒绝假设 \]

例如,我们要检验装盒重量的均值是否等于368g。所得到的Z(stat)=+1.50(就是说总体均值与样本均值的差距为1.50)。使用p值进行双侧检验,我们可以得到一个Z(stat)检验统计量相应的概率 --- Z(stat) < -1.50的概率为0.0668,那么同理,它大于+1.50的概率就为0.0668。因此,这一双侧检验中的p_value=0.0668+0.0668=0.1336(也就是说,检验统计量正处在或比样本观测结果更偏离中心的概率是0.1336),由于0.1336>0.05,因此不能拒绝零假设。

Excel可以计算任何假设检验的p值

p值法进行假设检验的5个步骤

相比假设检验法,不用第四步,重点在于假设准则

 

置信区间估计与假设检验之间的关系

这两者是统计推断的两个重要组成部分,他们基于相同的基本概念,但它们的目的不同

当然,合适的置信区间也可以证明某个参数是否小于、大于或不等于某一特定值。因为,如果假设值落入置信区间,则不能拒绝假设,因为假设值在置信区间内,我们就不能认为假设值是异常的。

 

关于均值Z检验的“已知标准差”

同第八章已知标准差的算法一样,研究已知标准差的检验让驾驶假设检验的基本原理变得简单。有了已知的总体标准差,可以使用正态分布并且计算出p值。对于后面几章,理解假设检验的概念非常重要。

 

9.2 对均值的t检验(标准差未知)

(建议对比“8.2 对总体均值的置信区间的估计 t分布”进行阅读)

总体标准差未知,我们就使用样本标准差。如果假设总体服从正态分布样本均值将服从自由度为n-1的t分布,这样就可以使用对均值的t检验。(当然,老生常谈,只要样本容量不是特别小,即使总体并非正态分布,但其实依然可以使用t检验)

\[t_{STAT}=\frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}\\ t_{STAT}检验统计量服从自由度为n-1的t分布\\ \bar{X}是样本均值、S是样本标准差、\mu是总体均值,n为样本容量\\ (决策准则与Z检验十分相似,详见案例) \]

乍一看不是对均值的t检验和对均值的Z检验公式一样嘛!于是我找到了如下 资料(来源见拓展)

 

均值t检验和对均值Z检验的相同点

  1. 两者都能够进行均值差异性检验

均值t检验和对均值Z检验的不同点

  1. Z检验要求样本用量足够大(前者很难达到),t检验可以用于n<30的样本,也可以胜任大样本,而且不用知道总体
  2. Z检验要求总体标准差已知(很难达到该要求),t检验可以用样本均值和标准差代替总体均值和标准差
  3. t检验适用范围更广(由于上述两个区别),SPSS里只有t检验,没有z检验模块

注意

  1. 样本容量大于30且样本容量越大时,样本标准差就会与总体标准差越小
  2. 《商务统计学 第七版》指出,如果样本容量小于30,那么就不能轻易做出假设---认为样本的总体近似地服从于正态分布。此时,使用其他的非参数检验方法更为恰当。
  3. 当总体标准差未知且可以通过样本标准差S来估计时,就要使用t检验,但使用t检验,必须建设已有数据所代表的随机样本来自正态总体

 

假设检验举例

(书籍p279)商务目的是判断过去5年内平均每份销售单据的金额是否为120美元(样本容量为12,),也就是说,希望通过假设检验来证明销售单据金额的均值是否有所上升或下降

双侧检验 临界值法 (采用9.1六步法)

  1. \[H_{0}:\mu=120\quad H_{1}:\mu\neq120 \]

  2. \[n=12\quad,\alpha=0.05 \]

    显著性水平采取一般值0.05

  3. \[假设销售单据金额总体近似服从正态分布,使用t分布,并采用t检验 \]

    因为样本容量小所以采用t分布,又因为总体标准差未知所以采用t检验

  4. \[样本容量为12,因此t_{STAT}服从自由度为11的t分布\\ 显著性水平为0.05且此处采用双侧检验,因此一侧的拒绝域面积为0.025\\ 使用11和0.025查询t值表可得,临界值为\pm2.2010 \]

    \[因此决策原则为:\\ 若t_{STAT}<-t_{\frac{\alpha}{2}}=-2.2010\ 或者\ t_{STAT}>t_{\frac{\alpha}{2}}=2.2010,则拒绝H_{0}\\ 若在中间的区间内则不能拒绝H_{0} \]

  5. 随机抽取12个样本并计算样本均值与样本标准差

    \[假设样本中\bar{X}=112.85,S=20.80\\ 代入t检验公式(预期中的总体均值\mu=120)得\\ t_{STAT}=-1.1908 \]

  6. \[由于t_{STAT}统计检验量=-1.1908且落入临界值\pm2.2010的范围内,因此不能拒绝H_{0}\\ 所以结论为“没有足够证据证明销售单据金额的均值已经偏离以往的均值120美元” \]

双侧检验 p值检验法

  1. 同上

  2. 同上

  3. 同上

  4. \[t_{STAT}=-1.1908\\ 由Excel计算得(双侧)p\underline\ value=0.2588 \]

  5. \[因为双侧p值0.2588大于显著性水平0.05,因此,不能拒绝H_{0}\\ 所以结论为“没有足够证据证明销售单据金额的均值已经偏离以往的均值120美元” \]

 

拓展阅读

统计学中Z检验和t检验的区别

如何理解Z检验和T检验?

 

标签:均值,第九章,假设,假设检验,检验,拒绝域,标准差,基本概念
来源: https://www.cnblogs.com/G-Aurora/p/13886098.html