首页 > 其他分享> > 假设与检验

假设与检验

2022-01-13 19:02:02 作者：互联网

假设检验

公众号：ChallengeHub(机器学习，NLP，推荐系统，数据分析)
(欢迎大家关注)

假设检验是统计推断的一种重要形式，其任务是通过样本对未知的总体分布特征作出合理的推断。先对总体分布中的某些参数或者对总体分布类型做某种假设，然后根据样本值做出接受还是拒绝所做假设的结论。

	H 0 H_0 H0为真	H 0 H_0 H0不真
拒绝 H 0 H_0 H0	第一类错误	正确
接受 H 0 H_0 H0	正确	第二类错误

基本步骤

第一步：问题假设

根据实际问题提出原假设 H 0 H_0 H0和备选假设 H 1 H_1 H1，其中 H 0 H_0 H0和 H 1 H_1 H1是相互对立的。

例如：如 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0, H 0 : μ ≠ μ 0 H_0:\mu\ne\mu_0 H0:μ=μ0

这种为双边检验

第二步：选取检验统计量

选取一个合适的检验统计量，并根据原假设 H 0 H_0 H0和备选假设 H 1 H_1 H1确定 H 0 H_0 H0的拒绝域

在根据上一步的假设，有：
P { ∣ μ ∣ < μ α 2 } = 1 − α P\{|\mu|<\mu_{\frac {\alpha}{2}}\}=1-\alpha P{∣μ∣<μ2α}=1−α
或者
P { ∣ μ ∣ > μ α 2 } = α P\{|\mu|>\mu_{\frac {\alpha}{2}}\}=\alpha P{∣μ∣>μ2α}=α
则可以确定 ( − inf ⁡ , − μ α 2 ) ∪ ( μ α 2 , inf ⁡ ) (-\inf,-\mu_{\frac {\alpha}{2}})\cup(\mu_{\frac {\alpha}{2}},\inf) (−inf,−μ2α)∪(μ2α,inf) 为 H 0 H_0 H0的拒绝域，而 ( − μ α 2 , μ α 2 ) (-\mu_{\frac {\alpha}{2}},\mu_{\frac {\alpha}{2}}) (−μ2α,μ2α) 为 H 0 H_0 H0的接受域， μ α 2 \mu_{\frac {\alpha}{2}} μ2α称为临界值。

第三步：给定显著性水平

一般 α \alpha α的取值为0.05,0.01,0.10等。

第四步：计算检验统计量的具体值

第五步：做出判断

相关练习

单个正态总体的假设检验

设总体 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2), X 1 , X 2 . . . , X n X_1,X_2...,X_n X1,X2...,Xn是取自总体的样本， X ‾ , S 2 \overline X,S^2 X,S2为样本均值和方差， α \alpha α为显著性水平。

方差已知，均值检验( μ \mu μ检验法)

1：双边检验

假设： H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0, H 0 : μ ≠ μ 0 H_0:\mu\ne\mu_0 H0:μ=μ0

取检验统计量 U = X ‾ − μ 0 σ n U=\frac {\overline X-\mu_0}{\frac{\sigma}{\sqrt n}} U=n σX−μ0, 当 H 0 H_0 H0成立时， U = X ‾ − μ 0 σ n ∼ N ( 0 , 1 ) U=\frac {\overline X-\mu_0}{\frac{\sigma}{\sqrt n}} \sim N(0,1) U=n σX−μ0∼N(0,1)。

对于给定的 α \alpha α，查正态分布表，使得
P { ∣ μ ∣ > μ α 2 } = α P\{|\mu|>\mu_{\frac{\alpha}{2}}\}=\alpha P{∣μ∣>μ2α}=α
于是得到 H 0 H_0 H0的拒绝域为 ( − inf ⁡ , − μ α 2 ) ∪ ( μ α 2 , inf ⁡ ) (-\inf,-\mu_{\frac {\alpha}{2}})\cup(\mu_{\frac {\alpha}{2}},\inf) (−inf,−μ2α)∪(μ2α,inf)。

2：单边检验

假设： H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0, H 0 : μ > μ 0 H_0:\mu\gt\mu_0 H0:μ>μ0

当 H 0 H_0 H0成立时， U = X ‾ − μ 0 σ n ∼ N ( 0 , 1 ) U=\frac {\overline X-\mu_0}{\frac{\sigma}{\sqrt n}} \sim N(0,1) U=n σX−μ0∼N(0,1)。

当 H 0 H_0 H0成立时， μ \mu μ的值不应该很大，而当 H 1 H_1 H1成立时， μ \mu μ的值往往偏大。

因此，公式
P { ∣ μ ∣ > μ α } = α P\{|\mu|>\mu_{\alpha}\}=\alpha P{∣μ∣>μα}=α
于是得到拒绝域为 ( μ α , inf ⁡ ) (\mu_{\alpha},\inf) (μα,inf)。

类似的，若 H 1 : μ < μ 0 H_1:\mu<\mu_0 H1:μ<μ0

可以得到 H 0 H_0 H0的拒绝域为 ( − inf ⁡ , − μ α ) (-\inf,-\mu_\alpha) (−inf,−μα)

3：例题

例1 由经验知某个零件的重量 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2), μ = 15 \mu=15 μ=15, σ = 0.05 \sigma=0.05 σ=0.05; 技术革新后，抽出6个零件，测得的重量为14.7, 15.1, 14.8, 15.0, 15.2, 14.6。已知方差不变，试统计推断，平均重量是否还是15克。( α = 0.05 \alpha=0.05 α=0.05)

解：

假设： H 0 : μ = 15 H_0:\mu=15 H0:μ=15, H 0 : μ ≠ 15 H_0:\mu\ne15 H0:μ=15

构造 U U U统计量，得到 U U U的0.05双侧分位数为 μ 0.025 = 1.96 \mu_{0.025}=1.96 μ0.025=1.96。

样本的均值为 x ‾ = 14.9 \overline x=14.9 x=14.9

因此 U U U统计量的观测值为 ∣ U ∣ = ∣ x ‾ − 15 0.05 / 6 ∣ = 4.9 |U|=|\frac {\overline x-15}{0.05/\sqrt6}|=4.9 ∣U∣=∣0.05/6 x−15∣=4.9

由于4.9大于1.96，即观测值落在拒绝域内，所以拒绝原假设。

方差未知，均值检验( t t t检验)

1：双边检验

假设： H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0, H 0 : μ ≠ μ 0 H_0:\mu\ne\mu_0 H0:μ=μ0

此时，整体 σ 2 \sigma^2 σ2未知，不能采用 U = X ‾ − μ 0 σ n U=\frac {\overline X-\mu_0}{\frac{\sigma}{\sqrt n}} U=n σX−μ0, 因此需要用样本的方差来代替总体方差，

T = X ‾ − μ 0 S n T=\frac {\overline X-\mu_0}{\frac{S}{\sqrt n}} T=n SX−μ0, 当 H 0 H_0 H0成立时， U = X ‾ − μ 0 S n ∼ t ( 0 , 1 ) U=\frac {\overline X-\mu_0}{\frac{S}{\sqrt n}} \sim t(0,1) U=n SX−μ0∼t(0,1)。

对于给定的 α \alpha α，查 t t t分布表，使得
P { ∣ t ∣ > t α 2 ( n − 1 ) } = α P\{|t|>t_{\frac{\alpha}{2}}(n-1)\}=\alpha P{∣t∣>t2α(n−1)}=α
于是得到 H 0 H_0 H0的拒绝域为 ( − inf ⁡ , − t α 2 ( n − 1 ) ∪ ( t α 2 ( n − 1 ) , inf ⁡ ) (-\inf,-t_{\frac{\alpha}{2}}(n-1)\cup(t_{\frac{\alpha}{2}}(n-1),\inf) (−inf,−t2α(n−1)∪(t2α(n−1),inf)。

2：单边检验

假设： H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0, H 0 : μ < μ 0 H_0:\mu<\mu_0 H0:μ<μ0

可得到的 H 0 H_0 H0的拒绝域为 ( − inf ⁡ , − t α 2 ( n − 1 ) (-\inf,-t_{\frac{\alpha}{2}}(n-1) (−inf,−t2α(n−1)

3：例题

例2 化工厂用自动包装机包装化肥，每包重量服从正态分布，额定的重量为100千克。随机抽取了9袋化肥，发现均值为99.978，均方差为1.212，能否认为这天的化肥装机正常？ ( α = 0.1 ) (\alpha=0.1) (α=0.1)

解：由于方差未知，采用 T T T检验法

假设： H 0 : μ = 100 H_0:\mu=100 H0:μ=100, H 0 : μ ≠ 100 H_0:\mu\ne100 H0:μ=100

构建 T T T统计量，得到 T T T的0.1双侧分位数为
t 0.05 ( 8 ) = 1.86 t_{0.05}(8)=1.86 t0.05(8)=1.86
T T T统计量的观测值为
∣ T ∣ = ∣ x ‾ − μ ∣ S / n = ∣ 99.978 − 100 1.212 / 9 ∣ = 0.0545 |T|=\frac {|\overline x-\mu|}{S/\sqrt n}=|\frac{99.978-100}{1.212/\sqrt 9}|=0.0545 ∣T∣=S/n ∣x−μ∣=∣1.212/9 99.978−100∣=0.0545
因此0.0545小于1.86，因此接受原假设，今天的包装机工作正常。

方差 σ 2 \sigma^2 σ2检验( χ 2 \chi^2 χ2检验)

假设： H 0 : σ 2 = σ 0 2 H_0:\sigma^2=\sigma_0^2 H0:σ2=σ02, H 0 : σ 2 ≠ σ 0 2 H_0:\sigma^2\ne\sigma_0^2 H0:σ2=σ02

检验统计量
χ 2 = ( n − 1 ) S 2 σ 0 2 \chi^2=\frac{(n-1)S^2}{\sigma_0^2} χ2=σ02(n−1)S2
当 H 0 H_0 H0成立时
χ 2 = ( n − 1 ) S 2 σ 0 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1) χ2=σ02(n−1)S2∼χ2(n−1)
例1 服从正态分布，抽取数为4.421，4.052，4.357，4.287，4.683，判断方差是否仍为0.108^2 ( α = 0.05 ) (\alpha=0.05) (α=0.05)

解：均值未知，的方差检验，用 χ 2 \chi^2 χ2检验法

假设： H 0 : σ 2 = 0.10 8 2 H_0:\sigma^2=0.108^2 H0:σ2=0.1082, H 0 : σ 2 ≠ 0.10 8 2 H_0:\sigma^2\ne0.108^2 H0:σ2=0.1082

由 α = 0.05 \alpha=0.05 α=0.05，得到临界值
χ 0.975 2 ( 4 ) = 0.048 , χ 0.025 2 ( 4 ) = 11.14 \chi_{0.975}^2(4)=0.048,\chi_{0.025}^2(4)=11.14 χ0.9752(4)=0.048,χ0.0252(4)=11.14
χ 2 \chi^2 χ2统计量的观测值为17.8543

因为 17.8543>11.14

所以拒绝原假设

两个正态总体的比较

假设总体 X ∼ N ( μ 1 , σ 1 2 ) ， Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2)，Y\sim N(\mu_2,\sigma_2^2) X∼N(μ1,σ12)，Y∼N(μ2,σ22), X 1 , X 2 . . . , X n , Y 1 , Y 2 . . . , Y n X_1,X_2...,X_n,Y_1,Y_2...,Y_n X1,X2...,Xn,Y1,Y2...,Yn是取自总体的样本。

有：

X ‾ = 1 n ∑ i = 1 n X i \overline X=\frac{1}{n}\sum_{i=1}^nX_i X=n1∑i=1nXi, S 1 2 = 1 n − 1 ∑ ( X i − X ‾ ) 2 S_1^2=\frac{1}{n-1}\sum(X_i-\overline X)^2 S12=n−11∑(Xi−X)2

Y ‾ = 1 m ∑ ( Y i ) \overline Y=\frac 1m\sum(Y_i) Y=m1∑(Yi), S 2 2 = 1 m − 1 ∑ ( Y i − Y ‾ ) S_2^2=\frac{1}{m-1}\sum(Y_i-\overline Y) S22=m−11∑(Yi−Y)

两个样本相同独立

方差已知，均值检验( μ \mu μ检验法)

假设： H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0:μ1=μ2, H 0 : μ 1 ≠ μ 2 H_0:\mu_1\ne\mu_2 H0:μ1=μ2

估计两个样本的均值是否相等，即 μ 1 − μ 2 = 0 \mu_1-\mu_2=0 μ1−μ2=0。

E ( X ‾ − Y ‾ ) = μ 1 − μ 2 E(\overline X-\overline Y)=\mu_1-\mu_2 E(X−Y)=μ1−μ2

D ( X ‾ − Y ‾ ) = σ 1 2 n + σ 2 2 m D(\overline X-\overline Y)=\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m} D(X−Y)=nσ12+mσ22

因此 X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n + σ 2 2 m ) \overline X-\overline Y \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}) X−Y∼N(μ1−μ2,nσ12+mσ22)

当原假设成立的时候，用检验假设统计量
U = ( X ‾ − Y ‾ ) σ 1 2 n + σ 2 2 m ∼ N ( 0 , 1 ) U=\frac{(\overline X-\overline Y)}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}\sim N(0,1) U=nσ12+mσ22 (X−Y)∼N(0,1)
给定的 α \alpha α，查正态表使得 P { ∣ μ ∣ > μ α 2 } = α P\{|\mu|>\mu_{\frac {\alpha}{2}}\}=\alpha P{∣μ∣>μ2α}=α

从而可以得到拒绝域为 ( − inf ⁡ , − μ α 2 ) ∪ ( μ α 2 , inf ⁡ ) (-\inf,-\mu_{\frac {\alpha}{2}})\cup(\mu_{\frac {\alpha}{2}},\inf) (−inf,−μ2α)∪(μ2α,inf)。

方差未知，均值检验( μ \mu μ检验法)

使用样本的方差代替总体的方差（为什么会有强调两种方差相等？）

T = ( X ‾ − Y ‾ ) ( n − 1 ) S 1 2 + ( m − 1 ) S 2 2 n + m − 2 1 n + 1 m ∼ t ( n + m − 2 ) T=\frac {(\overline X-\overline Y)}{\sqrt{ \frac{(n-1)S_1^2+(m-1)S_2^2}{n+m-2}\sqrt {\frac 1n +\frac 1m}}}\sim t(n+m-2) T=n+m−2(n−1)S12+(m−1)S22n1+m1 (X−Y)∼t(n+m−2)

例题

甲：25 28 23 26 29 22

乙：28 23 30 25 21 27

服从正态分布，方差相等且未知 ( α = 0.05 ) (\alpha=0.05) (α=0.05)

方差的检验

假设： H 0 : σ 2 = σ 0 2 H_0:\sigma^2=\sigma_0^2 H0:σ2=σ02, H 0 : σ 2 ≠ σ 0 2 H_0:\sigma^2\ne\sigma_0^2 H0:σ2=σ02

检验统计量 F = S 1 2 S 2 2 F=\frac {S_1^2}{S_2^2} F=S22S12

当 H 0 H_0 H0成立时， F ∼ F ( n − 1 , m − 1 ) F\sim F(n-1,m-1) F∼F(n−1,m−1)

S 1 2 , S 2 2 是 σ 1 2 , σ 2 2 S_1^2,S_2^2 是\sigma_1^2,\sigma_2^2 S12,S22是σ12,σ22的无偏估计，因此当 H 0 H_0 H0成立， F F F的值应该接近于1。

标签：frac,假设,H0,检验,mu,alpha,inf,sigma
来源： https://blog.csdn.net/qq_39158406/article/details/122480029

假设与检验

假设检验

相关概念

原问题假设

拒绝域与接受域

两类错误

基本思想

基本步骤

第一步：问题假设

第二步：选取检验统计量

第三步：给定显著性水平

第四步：计算检验统计量的具体值

第五步：做出判断

相关练习

单个正态总体的假设检验

方差已知，均值检验( μ \mu μ检验法)

1：双边检验

2：单边检验

3：例题

方差未知，均值检验( t t t检验)

1：双边检验

2：单边检验

3：例题

方差 σ 2 \sigma^2 σ2检验( χ 2 \chi^2 χ2检验)

两个正态总体的比较

方差已知，均值检验( μ \mu μ检验法)

方差未知，均值检验( μ \mu μ检验法)

例题

方差的检验