其他分享
首页 > 其他分享> > 概率论_十 统计量一

概率论_十 统计量一

作者:互联网

前言:

 

目录:

  1: 总体和样本

  2: 统计量和常用统计量

  3: x^2分布(卡方分部 )

   4: t 分布和 F分布

 


一 总体和样本

     例:

         要研究某校5000个学生的身高

 

      目的: 用部分的数据推断出总体未知参数

      总体: 研究的对象全体,5000个学生

      个体: 总体中的成员。 例如某个学生的身高,

      总体容量: 总体中包含的个体数,如上是5000

     有限总体: 容量有限

     无限总体: 容量无限

     样本:总体中抽取一部分个体\begin{Bmatrix} x_1 ,& x_2, & ..., & x_n \end{Bmatrix},根据这部分个体的数据,并利用概率论知识作出分析和腿短,被抽取的部分个体叫做样本。

     抽样方式:

                放回抽样, 总体容量有限

                不放回抽样: 总体容量很大,或者无限大

     样本性质: 

               X_i与X 同分布,x_1,x_2,..x_n独立且为随机变量

 

    总体的某个指标X,可以看作一个随机变量, 也简称X为总体。

   分布函数 : F(X)


二 统计量 常用统计量

    从样本中提取有用信息来研究总体的分布以及各种特征数

   统计量:

           样本总不含有任何未知参数的函数

   设(X_1,X_2,...X_n)为样本,若g(X_1,X_2,...X_n)不含有任何未知参数,则称g(X_1,X_2,...X_n) 为统计量

 

  2.1  常用样本统计量

        样本均值:  \bar{X}= \frac{1}{n}\sum_{i=1}^{n}X_i

         样本方差: S^2= \frac{1}{n-1}\sum (x_i-\bar{x})

         样本标准差: S=\sqrt{S^2}

         样本k阶矩 :  A_k=\frac{1}{n} \sum X_i^k

          样本k阶中心矩     B_k=\frac{1}{n}\sum(x_i-\bar{x})^k

例子:

    总体为 88,75,70,63 ,总体的均值为74, 方差为83.5

  从中随机抽样两个数据,求样本均值,样本方差,样本k阶矩

 

import numpy as np



#获取样本特征
def GetSample(data):
    
    m= len(data)
    
    for i in range(m):
        for j in range(m):

            a = data[i]
            b = data[j]   
            sample = [a,b]
            
            u = np.mean(sample)
            c = np.power(a-u,2)+np.power(b-u,2)
            var = c
            kMartrix = c/2
            
            print("\n 样本: ",sample,"\t 样本均值 ",u,"\t 样本方差 ",var,"\t 样本2阶中心矩 ",kMartrix)

#获取总体特征
def GetTotal(data):
    
    
    u = np.mean(data)
    var = np.var(data)


    print("\n  总体均值 x: ",u,"\t 总体方差: ",var)
    
data= [88,75,70,63]
GetTotal(data)
GetSample(data)    
===============================
 总体均值 x:  74.0          总体方差:  83.5

 样本:  [88, 88]   样本均值  88.0      样本方差  0.0       样本2阶中心矩  0.0

 样本:  [88, 75]   样本均值  81.5      样本方差  84.5      样本2阶中心矩  42.25

 样本:  [88, 70]   样本均值  79.0      样本方差  162.0     样本2阶中心矩  81.0

 样本:  [88, 63]   样本均值  75.5      样本方差  312.5     样本2阶中心矩  156.25

 样本:  [75, 88]   样本均值  81.5      样本方差  84.5      样本2阶中心矩  42.25

 样本:  [75, 75]   样本均值  75.0      样本方差  0.0       样本2阶中心矩  0.0

 样本:  [75, 70]   样本均值  72.5      样本方差  12.5      样本2阶中心矩  6.25

 样本:  [75, 63]   样本均值  69.0      样本方差  72.0      样本2阶中心矩  36.0

 样本:  [70, 88]   样本均值  79.0      样本方差  162.0     样本2阶中心矩  81.0

 样本:  [70, 75]   样本均值  72.5      样本方差  12.5      样本2阶中心矩  6.25

 样本:  [70, 70]   样本均值  70.0      样本方差  0.0       样本2阶中心矩  0.0

 样本:  [70, 63]   样本均值  66.5      样本方差  24.5      样本2阶中心矩  12.25

 样本:  [63, 88]   样本均值  75.5      样本方差  312.5     样本2阶中心矩  156.25

 样本:  [63, 75]   样本均值  69.0      样本方差  72.0      样本2阶中心矩  36.0

 样本:  [63, 70]   样本均值  66.5      样本方差  24.5      样本2阶中心矩  12.25

 样本:  [63, 63]   样本均值  63.0      样本方差  0.0       样本2阶中心矩  0.0

二 卡方分布

     2.1 定义

           设随机变量X_1,....,X_n相互独立,都服从N(0,1)分布

           X^2= \sum_{i=1}^{n} X_i^2  服从自由度为n的卡方分布,记作

            X^2 \sim X^2(n)

            自由度: 右端包含独立变量的个数n

     2.1 Gamma 函数

            \gamma(a)=\int_{0}^{\infty }x^{a-1}e^{-x}dx

           性质

            \gamma(1)=1

            \gamma(2)=1

            \gamma(n)=(n-1)!

             证明: 使用分部积分和洛必达法则可得:

              u=x,v=-e^{-x}

             \gamma(2) = -xe^{-x}|_{0}^{\infty}+\int_{0}^{\infty}e^{-x}dx=1

                其他的同理: 前半部分为0(洛必达法则),后半部分前一部分*n(分部积分) 

           

        第二类Gamma 函数

          \gamma(a)=2\int_{0}^{\infty}t^{2a-1}e^{-t^2}dt

         所以  \gamma(1/2)=\sqrt_{\pi}         

     2.3  卡方函数的概率密度

            f_n(x)=\left\{\begin{matrix} \frac{1}{2\gamma(n/2)}(\frac{x}{2})^{n/2-1}e^{-x/2},x>0\\ 0, x\leq 0 \end{matrix}\right.

       要证明上式:

      主要分为两步证明:

    --------------------------step1 ---------------------------------------

         a: Y=X^2, X \sim N(0,1),求Y得概率密度

             证明:    

               F(Y)=P\begin{Bmatrix} Y \leq y \end{Bmatrix} =P \begin{Bmatrix} X^2 \leq y \end{Bmatrix} =\begin{Bmatrix} -\sqrt{y} \leq X \leq \sqrt{y} \end{Bmatrix}= F_x(\sqrt{y})-F_x(-\sqrt{y})

                     求导后

                     f(y)=\frac{1}{2\sqrt{y}}(f_x(\sqrt{y})-f_x(-\sqrt{y}))

                    带入正态分布后

                    f(y)=\frac{1}{\sqrt{2\pi }}y^{-1/2}e^{-y/2}

----------------step2 伽玛函数的可加性性质 -------------------------------------------

     单个\gamma密度函数定义如下:

   f(y)=\frac{1}{\gamma(k)\theta^k}y^{k-1}e^{-x/\theta} 记作  \gamma(k,\theta), 可以看出Y=X^2 服从 \gamma(1/2,2)的分布

   再证明 下面两个卡方分布的性质

   Z=X+Y

   其X,Y复杂伽玛分布

    f(x)=\frac{x^{a-1}e^{-x/\theta}}{\theta^{a}\gamma(a)},x>0,\theta>0,记作X \sim \gamma(\theta,a)

  f(x)=\frac{y^{b-1}e^{-y/\theta}}{\theta^{b}\gamma(b)},x>0,\theta>0, 记作Y \sim \gamma(\theta,b)

   则  Z\sim \gamma(\theta, a+b)的伽玛分布

    证明:

     f_z(z)=\int f_x(x)f_y(z-x)dx

               =\int_{0}^{z} \frac{x^{a-1}e^{-x/\theta}}{\theta^{a}\gamma(a)} \frac{(z-x)^{b-1}e^{-(z-x)/\theta}}{\theta^{b}\gamma(b)}dx

             =\frac{e^{-z/\theta}}{\theta^{a+b}\gamma(a)\gamma(b)}\int_{0}^{z} x^{a-1}(z-x)^{b-1}dx

     令 x=zt,t\in[0,1]

             f_z(z)=\frac{e^{-z/\theta}}{\theta^{a+b}\gamma(a)\gamma(b)}\int_{0}^{1}z^{a-1}t^{a-1}(z-zt)^{b-1}zdt

                   =\frac{e^{-z/\theta}}{\theta^{a+b}\gamma(a)\gamma(b)}\int_{0}^{1}t^{a-1}(1-t)^{b-1}z^{a+b-1}dt

                    =\frac{e^{-z/\theta} z^{a+b-1}}{\theta^{a+b}\gamma(a)\gamma(b)}\int_{0}^{1}t^{a-1}(1-t)^{b-1}dt

       令      A=\frac{1}{\theta^{a+b}\gamma(a)\gamma(b)}\int_{0}^{1}t^{a-1}(1-t)^{b-1}dt 为一个常数

        f_z(z)=e^{-z/\theta}z^{a+b-1}A

      根据

   1=\int_{-\infty }^{\infty } f_z(z)dz =\int_{0}^{\infty}Ae^{-z/\theta}z^{a+b-1}dz

   令 z/\theta=t

 

 1=\theta^{a+b}A \int_{0}^{\oe }e^{-t}t^{a+b-1}dt

   A= \frac{1}{\gamma(a+b)\theta^{a+b}}

所以

f(z)=\frac{e^{-z/\theta}z^{a+b-1}}{\theta^{a+b}\gamma(a+b)},x>0,\theta>0 \sim \gamma(\theta,a+b)

 

          

    2.3     卡方概率密度函数的图形(自由度1,4,10,20)

                 

                 随着自由度增大,峰值右移动

     2.5    卡方函数的性质

               1  E(X)=1

                   证明:

                      X^2=\sum_{i=1}^{n}X_i^2

                      因为    E(X_i^2)=D(X_i)+E^2(X_i)=1+0=1

                     所以 E(X^2)=\sum E(X_i^2)=\sum 1 = n

                2  D(X) = 2

                    证明:

                      D(X)=\sum D(X_i^2)

                      =E(X_i^4)-E^2(X_i^2)

                    其中:

                      E(X_i^2)=1=\int X_i^2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx

                     E(X_i^4)=\int X_i^4 \frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx

                        U= x^3,V=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}

                    则:E(X_i^4)= [X_i^3 \frac{1}{\sqrt{2\pi}}e^{-x^2/2}]_{-\infty}^{\infty} +\int 3 X_i^2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx

                                        =0+3E(X_i^2)=3

                     所以D(X)=\sum(3-1)=2n

 

               3:  Y_1\sim X^2(n_1),Y_2 \sim X^2(n_2),且Y_1,Y_2相互独立,则

                     Y_1+Y_2\sim X^2(n_1+n_2),可以推广到m个随机变量

   2.6 上\alpha 分位数分位数

        给定 \alpha,0<\alpha<1,称满足 

        P(X^2>X_{\alpha}^2(n))=\alpha 的点X_{\alpha}^2(n) 为卡方分布的上\alpha分位数,如下图其实就是阴影部分的面积。后面假设检验里面,一般\alpha取值很小0.05左右

       

    2.6    应用例子

           例1: X \sim N(u,\sigma^2), (X_1,X_2,...,X_n) 为随机采样的样本

                       求X^2=\frac{1}{\sigma^2}\sum(X_i-u)^2

                       令: Y_i=\frac{X_i-u}{\sigma}\sim N(0,1)

                       则: X^2=\sum Y_i^2  服从自由度为n的卡方分布

 

            例子2:  手上有5个手机,每个手机开机时间都符合正态分布,则

                          每个手机开机时间标准化后,其和也符合卡方分布

            例3:  一个病人,有5个指标,每次检验结果都不一样,都符合正态分布,则

                          每个指标标准化后,其和符合卡方分布

                           

标签:总体,7D%,中心矩,方差,样本,样本均值,概率论,统计
来源: https://blog.csdn.net/chengxf2/article/details/114287236