其他分享
首页 > 其他分享> > 统计学——步步为营

统计学——步步为营

作者:互联网

统计学:

以数据为中心。统计学可以分为两大类:
1.描述统计学。用一些代表性representative number 数据来向你描述整体数据特点。
2.推论统计学(inferential statistics)。用一部分数据进行分析,通过数学方法尽可能准确地预测整体情况。

均值、中位数、众数:

这三种都是用来衡量一组数据的集中趋势的方法,集中趋势简单来说就是Average。这三个仅仅是用来描述average的definition。这三种都是用来衡量一组数据的集中趋势的方法,集中趋势简单来说就是Average。这三个仅仅是用来描述average的definition。

描述性数据 不足 适用情况
均值 易受离群值影响 对称分布
中位数 偏态分布
众数 不唯一性 偏态分布

极差、中程数

总体均值、样本均值

为什么会出现总体和样本的概念?
答:由于统计总体的数据,会存在各种各样的麻烦,例如:工作量大、数据在周期内波动性大、代价大…… 因此,提出Sample概念。这样既可以操作性可行,而且正确的方法下,还可以尽可能准确地反应总体情况。这中间会涉及如何合理取样的问题,避免出现skewed sample现象。

Notations:
总体中每一个元素记作 : x1,x2,x3, ,xnx_1,x_2,x_3,\cdots,x_n,\cdotsx1​,x2​,x3​,⋯,xn​,⋯
总体的size:NNN
样本的size:nnn
总体均值记作:μ=i=1NxiN\mu=\frac{\sum_{i=1}^{N}x_i}{N}μ=N∑i=1N​xi​​
样本均值记作:x=i=1nxin\overline{x}=\frac{\sum_{i=1}^{n}x_i}{n}x=n∑i=1n​xi​​

总体方差

我们在利用均值、中位数、众数来度量数据集的集中趋势的同时,也失去了一些infomation,我们不知道数据集中的元素和均值、中位数、众数的远近关系,因此,有必要研究一下离中趋势(dispersion)。

样本方差

我们知道求一个总体方差,一般是很难的,因此我们向来都是求样本方差。首先数据量很大,不易获得,其次总体均值也是不好解决的,通常都会用样本均值来估计总体均值。(思考:为什么可以用样本均值来估计总体均值?xμ\overline{x}是\mu的无偏估计量x是μ的无偏估计量)

标准差

为什么要有标准差的概念?难道方差有什么不足吗?
答:因为标准差的单位更好。

方差公式的其他形式推导

σ2=i=1N(xiμ)2N=i=1N(xi22xiμ+μ2)N=i=1Nxi2i=1N2xiμ+i=1Nμ2N=i=1Nxi2N2μi=1NxiN+i=1Nμ2N=i=1Nxi2N2μ2+μ2=i=1Nxi2Nμ2 \begin{aligned} \sigma^{2}&=\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N} \\ &= \frac{\sum_{i=1}^{N}(x_{i}^2-2x_i\mu+\mu^2)}{N} \\ &=\frac{\sum_{i=1}^{N}x_i^2-\sum_{i=1}^{N}2x_i\mu+\sum_{i=1}^N\mu^2}{N} \\ &=\frac{\sum_{i=1}^Nx_i^2}{N}-2\mu\frac{\sum_{i=1}^Nx_i}{N}+\frac{\sum_{i=1}^N\mu^2}{N} \\ &=\frac{\sum_{i=1}^Nx_i^2}{N}-2\mu^2+\mu^2 \\ &=\frac{\sum_{i=1}^Nx_i^2}{N}-\mu^2 \end{aligned} σ2​=N∑i=1N​(xi​−μ)2​=N∑i=1N​(xi2​−2xi​μ+μ2)​=N∑i=1N​xi2​−∑i=1N​2xi​μ+∑i=1N​μ2​=N∑i=1N​xi2​​−2μN∑i=1N​xi​​+N∑i=1N​μ2​=N∑i=1N​xi2​​−2μ2+μ2=N∑i=1N​xi2​​−μ2​进一步推导:
σ2=i=1Nxi2N(i=1NxiN)2 \begin{aligned} \sigma^2&=\frac{\sum_{i=1}^Nx_i^2}{N}-(\frac{\sum_{i=1}^Nx_i}{N})^2 \end{aligned} σ2​=N∑i=1N​xi2​​−(N∑i=1N​xi​​)2​This is the interesting part.

随机变量

随机变量是一种将随机过程结果与数字相映射的泛函。它并不是传统意义上的变量。

概率密度函数

对于连续随机变量的概率分布,我们自然想移用离散随机变量的概率分布函数来表示:Probability_density_diatribution_function
但是这时我们需要思考:如果y-axis表示Probability,x-axis表示随机变量,那么P(X=xi)=yiP(X=x_i)=y_iP(X=xi​)=yi​,仔细想一下,对于连续随机变量XXX,当XXX等于某一确切的数时,其出现的概率几乎为000,显然不符合假设;当XXX是一个interval时,其出现概率才不会为000。我们怎样才能把连续随机变量和出现概率用一个泛函来map起来呢?自然联想到面积,这就利用到了积分的知识。我们这样规定:上图中的曲线为概率密度函数,面积即为出现概率。P(axb)=abf(x)dxP(a \leq x\leq b)=\int_a^bf(x){\rm d}xP(a≤x≤b)=∫ab​f(x)dx可以看出P(&lt;x&lt;)=f(x)dx=1P(-\infty \lt x \lt \infty)=\int_{-\infty}^{\infty}f(x){\rm d}x=1P(−∞<x<∞)=∫−∞∞​f(x)dx=1。

均匀分布

二次分布

随机变量XXX的概率分布:

XXX ProbabilityProbabilityProbability
1 ppp
0 1p1-p1−p

标签:xi,frac,sum,步步为营,mu,统计学,随机变量,1N
来源: https://blog.csdn.net/qq_39823607/article/details/88063176