excel----检验
作者:互联网
目录
一、概念
检验是统计学的基本原理之一,它通过样本来判断总体(全体数据)是否具有统计学的意义。具有统计学的意义指的是由样本来推测总体的特征,得出与总体特征有关的结论。
emmmmm,貌似就算知道了概念还是不知道它是干什么用,为什么要用它?
很多时候要得到所需的全部数据,从客观条件和技术操作上来讲非常困难,即使能够做到也会过度消耗时间和人力成本,在这种情况下,通常会使用样本数据,很多时候样本数据很大程度上反映了总体的特征。所以用样本推测总体的特征并得出与总体特征有关的结论就是检验。
二、检验的一般步骤
- 步骤一:结合总体的特征建立假设(通常为被拒绝的假设)
- 步骤二:计算制作概率分布所需的值(称为统计量或检验统计量)
- 步骤三:设定5%或10%这种拒绝假设的标准(这被称为拒绝区),判断通过样本求出的统计量是否在该拒绝区内,若在拒绝区内则拒绝假设,若不在拒绝区内则不拒绝假设。
三、简单例子说明
例子:
一枚硬币,投掷10次,有8次是正面朝上,这个现象能用偶然来解释吗?或者说这枚硬币投掷后比较容易正面朝上,也就是说正反面朝上的概率各为50%的假设是不成立的?
步骤一:这个例子假设“硬币正面朝上的概率为50%”,如果得出的统计量的概率是低于5%的就拒绝假设也就是结论为它较容易投掷出正面。
步骤二:利用二项分布的概率原理计算出投掷10次硬币出现的正面或反面朝上的概率,并用图表表示以上的结果。
下图是使用二项分布以正、反面出现的概率各为50%计算出的结果。
步骤三:由上图可以看出,10次中出现8次正面朝上的概率为4.4%<5%,因此拒绝前述假设,得出这枚硬币投掷正、反面朝上的概率不是各50%的这个结论。
好吧,其实看到了这里还是不太明白,整一个检验的过程和意义,接下来,看看检验的实际应用。
四、实际应用
1、独立性检验
(1)如下图所示,表示的是某段时间内A国到E国的A、B产品的销售业绩。(称为观察数据1)
问题一:它能说明A、B产品在不同国家的销售情况相差很大吗?
问题二:这些样本数据可以推出什么有关所有时间段内数据(即总体)的结论吗?
分析的目的:假如从结果得知A产品在某国的销售业绩高于其他国家,则需要决定是否在该国增加对A产品的推广经费。
但是,单从上表的数据,不同的人得出的主观性结论也会各不相同。从上表的数据来看我们可以直接得出A产品在B国卖的最好,B产品在A国卖的最好吗?
据此,尝试用统计方法通过样本来推测某国有或没有某产品的(不能仅用偶然来解释的)销售倾向。这里应选择独立性检验的方法。先建立假设“产品在不同国家的销售情况不存在差异”,然后检验其是否正确,如果统计结果拒绝假设,即可得出“产品在不同国家的销售情况存在差异”的结论。
步骤一:结合总体的特征建立假设
假设“A、B产品在不同国家的销售情况不存在差异”。检验的思路是在设想存在差异的前提下,建立相反的假设,再通过否定假设来进行验证。
步骤二:计算制作概率分布所需的值(称为统计量或检验统计量)
销售情况不存在差异则所有值都服从期望值,在进行独立检验时使用以下公式所表示的“检验统计量”,另外已知此检验量服从x^2值(卡方检验)的概率分布。
首先求出期望值:(如果产品在不同国家的销售情况不存在差异,那么各种产品无论在哪个国家,销售业绩的比例都应相同)
期望值计算:
A国A产品的销售期望值=A国的合计*全部A产品的比值(A产品合计/总合计)=2139*(4732/5807)=1743
步骤三:设定5%或10%这种拒绝假设的标准(这被称为拒绝区),判断通过样本求出的统计量是否在该拒绝区内,若在拒绝区内则拒绝假设,若不在拒绝区内则不拒绝假设。
利用excel的chiinv()函数计算出当显著性水平5%时的检验量x^2,将这个检验量和求出检验量进行比较。
由上图可知,通过计算得出的x^2值为71.2,5%显著水平下的x^2值(chiinv函数计算)为9.5,因此可拒绝假设“A、B产品在不同国家的销售情况不存在差异”,换句话说就是“观察值与期望值的离散程度超越了可以用偶然性来解释的范围,A、B产品在不同国家的销售情况存在统计学意义上的差异”。
得出了这个结论后,在实际工作中就能够做出决定:在A国应增加对B产品而不是A产品的推广经费。
(2)下图是与前面的例子中非常相似的数据(称为观察数据2)
从这个例子能得出与上表不同的结论吗?
根据上述步骤来求出统计量,如下图所示,
由观察数据2计算出的x^2的值约为6.4,低于显著型水平为5%时的x^2值9.5,这样我们就不能拒绝“A、B产品在不同国家的销售情况不存在差异”的假设,这与前面的例子刚好相反,由此可以看出不能仅靠主观判断,而需要运用统计方法进行定量检验的重要性。
(3)下面介绍另一个函数,这个函数代替我们根据期望值得出统计量并和chiinv()得出结果进行比较的步骤,chitest()函数。
使用chitest()函数计算观察数据1:结果值远远小于5%的概率,也就是拒绝假设
使用chitest()函数计算观察数据2:结果值约17%大于5%的概率,也就是不拒绝假设
用excel 分析工具中的chitest()函数,可根据其函数算出的结果得出结论,若该结果值小于5%的显著型水平则拒绝假设,若大于5%则不能拒绝假设。
【注意!!!】
做检验时需要注意的问题,即不能拒绝“不存在差异”的假设并不表示可以完全接受该假设,因为仅仅是不能拒绝“不存在差异”,其更严谨的说法是“无法确定是否存在差异”。
(4)独立性检验中所说的独立性,是指排列着数据的表(也称矩阵或列联表)中纵轴与横轴的数据之间是否相互影响(独立)。试着验证一下投放广告单与产品销售之间的因果关系。
下表是投放广告单与未投放广告单的情况下购买该产品人数的抽样调查结果。
结果11%大于5%,也就是不能拒绝假设,得出投放广告单与产品销售之间是独立的,也就是投放广告单与产品的销售并没有关系。
(5)利用独立性检验只能检验“能否确定存在差异性的问题”。即使结果显示其数据确实存在差异性,但是从该结果上并不能得知哪个因素存在多大的差异,是正向差异还是负向差异,接下来就需要用到“调整后残差”的概念了。
下面为对产品销售观察数据1进行调整后残差的过程:
下图为用excel的雷达图反映了A、B产品在不同国家的调整后残差。这样,哪个产品在哪个国家销售情况较好(较差)就一目了然了。
2、t检验
- 总体平均值的差异检验
所谓总体平均值的差异检验,指的是通过从两组总体数据中抽出的样本来检验其样本的平均值间是否存在统计学意义上的差异。
(1)下表表示的是从神奈川县和日本东京都的店铺中分别抽取出相同数量的店铺作为样本,列出了各家店每天的顾客人数。
由图可知平均顾客人数分别为神奈川县31.8人,东京都37.2人,由此就可以断定“神奈川县与东京都之间存在差异,东京都的店铺顾客人数较多”吗?
这时候就需要对“从样本得出的平均值31.8,37.2能否由此推测两组总体的平均值存在统计学意义上的差异”进行检验了。这称为t检验。
步骤一:结合总体的特征建立假设
首先假设“神奈川县与东京都在平均来店顾客人数上不存在差异”。
步骤二:计算制作概率分布所需的值(称为统计量或检验统计量)
由公式求出t值。此公式建立在平均值之间不存在差异的假设前提下。
式中,x1,x2表示两组数据,s1,s2分别表示x1,x2的方差,n1,n2分别表示x1,x2的样本数量
步骤三:设定5%或10%这种拒绝假设的标准(这被称为拒绝区),判断通过样本求出的统计量是否在该拒绝区内,若在拒绝区内则拒绝假设,若不在拒绝区内则不拒绝假设。
使用ttest()shang
上图表示在检验量t值得概率分布图上表现出5.4%的概率,因为它大于显著性水平5%,所以不能拒绝假设“神奈川县与东京都在平均来店顾客人数上不存在差异”,也就是,虽然通过样本求出各自的平均值为31.8和37.2,但并不能断定神奈川县与东京都在平均来店顾客人数上存在统计学意义上的差异。另外,严格来说,此检验还需加上总体为正态分布这个前提条件。
用excel 分析工具中的ttest()函数,可根据其函数算出的结果得出结论,若该结果值小于5%的显著型水平则拒绝假设,若大于5%则不能拒绝假设。
3、方差分析
前面检验了两组数据之间的差异,那么三组数据之间的差异呢?这里使用方差分析的方法。
标签:假设,差异,样本,excel,检验,----,拒绝,5% 来源: https://blog.csdn.net/weixin_45441862/article/details/121853332