各类分布以及检验方法
作者:互联网
各类分布以及检验方法
基础概念
1、标准差:
三种分布
1、卡方分布
若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
2、t分布
3、F分布
三种检验
1、卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。通俗点说就是检验两个变量之间有没有关系。比如说,卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别。
其中:
fo为实际观测的频度Observed Frequency
fe为期望的事件频度Expected Frequency
例如:在番茄中以纯合的紫茎、缺刻叶植株(AACC)与纯合的绿茎、马铃薯叶植株(aacc)杂交,F2得到454个植株,其中4种表型的计数分别为:紫茎缺刻叶247、紫茎马铃薯叶90、绿茎缺刻叶83、绿茎马铃薯叶34。判断该实验结果是否符合孟德尔的9:3:3:1的理论比率,可以用卡方检验。
2、t检验
为了确定从样本(sample)统计结果推论至总体时所犯错的概率,一般是小样本,n<30。
t检验可分为单总体检验和双总体检验,以及配对样本检验。
这里主要举例说明双总体检验(即独立样本t检验),双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
独立样本t检验统计量为:
S12和 S22为两样本方差;n1 和n2 为两样本容量。
例如t检验可用于比较男女身高是否存在差别
为了进行独立样本t检验,需要一个自(分组)变量(如性别:男、女)与一个因变量(如身高测量值)。根据自变量的特定值,比较各组中因变量的均值。如用t检验比较男、女身高的均值。
3、F检验
其又称方差分析(Analysis of Variance,简称ANOVA),或“变异数分析”。F检验是看F分布,而F value等于SSB(组间方差)/SSW(组内方差),如果我们把组间方差理解为两组之间的差异,组内方差理解为两组内部不同数据的差异的话,那么简单点说,两个数据在有差异的前提下,究竟是组间的差异大,还是组内的差异大?如果是组间的差异大,那么这两组数据本身不一致的概率就非常大了,对应F值比较大。
分布拟合
对于未知的总体的分布,我们可以利用一些拟合的方法进行探索。
1、经验分布函数
把样本的分布函数(也称为“经验分布函数”),与某种理论的分布函数(如正态分布)叠放在一起,进行比较。
经验分布函数的图像是阶梯状的。
例如:
2、频率直方图
将观测值按从小到大进行排序,划分若干区间,统计各区间内的频率。在x轴上,以各区间为底,以频率为高,给出频率直方图。频率直方图可以用来估计概率密度。
3、描述统计量
经验分布函数、频率分布图和频率直方图可以帮助我们了解随机变量的类型。当我们已经了解到随机变量的分布类型后,该随机变量的分布一般就取决于一个或几个参数了。
分布检验
1、正态概率图
用于正态分布的检验,是纵坐标经过变换之后的正态分布的分布函数图,在正态概率图上正态分布的分布函数曲线是一条直线。
正态概率图是概率图的一种,对于正态分布还可以利用偏度和峰度进行检验、
2、卡方拟合优度检验
拟合优度检验是检验一个类别变量的实际分布(各类别频数)与假设分布的拟合程度。
① 其研究对象是单个类别变量;
② 其研究内容是该变量与假设分布的拟合程度;
③ 其本质仍然是假设检验的范畴,最终决策或结论是拒绝或不拒绝原假设。
步骤:
步骤一:生成模拟数据。假设以掷骰子为例,先通过“Excel命令:数据>>数据分析”来生成100个1~6的随机均匀分布数据,然后用Round(data,0)命令将小数点后的尾数给四舍五入掉(非常时期在家窝着没事,也可以自己拿骰子扔个100次,然后将点数记录下来),我们记为fo:
步骤二:对观测数据进行频次汇总fo,并计算对应分类的概率Probo以及累计概率Cumo。
步骤三:计算均匀分布在对应分类的期望发生频次fe、事件概率Probe和累计概率Cume。
步骤四:计算每一个分类的卡方统计量的贡献度。
步骤五:进行卡方检验。
步骤六:观测值vs.期望值柱状图和概率图分析:
标签:概率,检验,分布,各类,拟合,卡方,正态分布 来源: https://blog.csdn.net/xieph9541/article/details/110728372