统计学——步步为营
作者:互联网
统计学:
以数据为中心。统计学可以分为两大类:
1.描述统计学。用一些代表性representative number 数据来向你描述整体数据特点。
2.推论统计学(inferential statistics)。用一部分数据进行分析,通过数学方法尽可能准确地预测整体情况。
均值、中位数、众数:
这三种都是用来衡量一组数据的集中趋势的方法,集中趋势简单来说就是Average。这三个仅仅是用来描述average的definition。这三种都是用来衡量一组数据的集中趋势的方法,集中趋势简单来说就是Average。这三个仅仅是用来描述average的definition。
-
均值:最常见的一种计算方法是算术平均值 ,这是相对其他计算方法的定义而的,也就是说,根据实际情况,你可以自己定义适合目前情况的均值概念。
-
中位数:先将这组数据从小到大排序,选取中间的那位数作为中位数,如果这组数据个数为偶数,取最中间两位数的平均数作为中位数。
-
众数:数据组中出现次数最多的数字。
为什么会有均值、中位数、众数来描述数据的集中趋势?
答:各有优势,互相补充,从而更具有代表性。
描述性数据 | 不足 | 适用情况 |
---|---|---|
均值 | 易受离群值影响 | 对称分布 |
中位数 | 偏态分布 | |
众数 | 不唯一性 | 偏态分布 |
极差、中程数
- 极差:数据组中最大数和最小数的差值。反映了这组数据的紧密程度。
- 中程数:数据组中最大数与最小数的算术平均值。也是衡量一组数据集中趋势的一种方法。
总体均值、样本均值
为什么会出现总体和样本的概念?
答:由于统计总体的数据,会存在各种各样的麻烦,例如:工作量大、数据在周期内波动性大、代价大…… 因此,提出Sample概念。这样既可以操作性可行,而且正确的方法下,还可以尽可能准确地反应总体情况。这中间会涉及如何合理取样的问题,避免出现skewed sample现象。
Notations:
总体中每一个元素记作 : x1,x2,x3,⋯,xn,⋯
总体的size:N
样本的size:n
总体均值记作:μ=N∑i=1Nxi
样本均值记作:x=n∑i=1nxi
总体方差
我们在利用均值、中位数、众数来度量数据集的集中趋势的同时,也失去了一些infomation,我们不知道数据集中的元素和均值、中位数、众数的远近关系,因此,有必要研究一下离中趋势(dispersion)。
- 总体方差σ2=N∑i=1N(xi−μ)2这里需要思考的是,为什么需要取一个平方再求和,是否还有其他方法。
样本方差
我们知道求一个总体方差,一般是很难的,因此我们向来都是求样本方差。首先数据量很大,不易获得,其次总体均值也是不好解决的,通常都会用样本均值来估计总体均值。(思考:为什么可以用样本均值来估计总体均值?x是μ的无偏估计量)
- 样本方差:此时用样本均值代替总体均值是再好不过的了。S2=n∑i=1n(xi−x)2它是总体方差的一个很不错的估计值,人们有时候也会这样表示样本方差Sn2。但是一般用Sn2会低估σ2,这是由于所选样本造成的,事实发现有一个公式可以更好地估计σ2:S2=n−1∑i=1n(xi−x)2它被称为总体方差的无偏估计(unbiased estimator)。
标准差
为什么要有标准差的概念?难道方差有什么不足吗?
答:因为标准差的单位更好。
- 总体标准差:σ=σ2=N∑i=1N(xi−μ)2
- 样本标准差:S=S2=n−1∑i=1n(xi−x)2
但是此时S并不是σ的无偏估计。(以后会证明)
方差公式的其他形式推导
σ2=N∑i=1N(xi−μ)2=N∑i=1N(xi2−2xiμ+μ2)=N∑i=1Nxi2−∑i=1N2xiμ+∑i=1Nμ2=N∑i=1Nxi2−2μN∑i=1Nxi+N∑i=1Nμ2=N∑i=1Nxi2−2μ2+μ2=N∑i=1Nxi2−μ2进一步推导:
σ2=N∑i=1Nxi2−(N∑i=1Nxi)2This is the interesting part.
随机变量
随机变量是一种将随机过程结果与数字相映射的泛函。它并不是传统意义上的变量。
- 离散随机变量(discrete) :finite number of outcomes,它的随机表示出现的可能性,这时便伴随着出现概率,怎样描述离散随机变量的出现概率?它的表现形式为概率分布函数。
- 连续随机变量(continuous):infinite number of outcomes,同理,怎样描述连续随机变量的出现概率问题?而它的表现形式为概率密度(density)函数。
概率密度函数
对于连续随机变量的概率分布,我们自然想移用离散随机变量的概率分布函数来表示:
但是这时我们需要思考:如果y-axis表示Probability,x-axis表示随机变量,那么P(X=xi)=yi,仔细想一下,对于连续随机变量X,当X等于某一确切的数时,其出现的概率几乎为0,显然不符合假设;当X是一个interval时,其出现概率才不会为0。我们怎样才能把连续随机变量和出现概率用一个泛函来map起来呢?自然联想到面积,这就利用到了积分的知识。我们这样规定:上图中的曲线为概率密度函数,面积即为出现概率。P(a≤x≤b)=∫abf(x)dx可以看出P(−∞<x<∞)=∫−∞∞f(x)dx=1。
均匀分布
二次分布
- 伯努利试验:在相同的条件下,重复地、独立地进行的一种随机试验。该随机试验只有两种结果:发生或者不发生。
- 伯努利分布:即0-1分布,1次伯努利试验。如果随机变量
X={01,no,yes
随机变量X的概率分布:
X | Probability |
---|---|
1 | p |
0 | 1−p |
- 二项分布:n重伯努利试验。是一种离散型分布。
标签:xi,frac,sum,步步为营,mu,统计学,随机变量,1N 来源: https://blog.csdn.net/qq_39823607/article/details/88063176