统计学一:描述统计
作者:互联网
待处理数据的缺失和错误会极大地影响后续的数据分析,因:我们首先需要评估数据质量,进行诸如缺失值发现、极端值诊断、统计分布(样本数据的分布情况)观察和描述性统计(包括均值、方差、标准差、偏度、峰度等)等操作。
在本课节中,老师从北京市空气质量监测数据集入手,系统介绍以上知识点,帮助学员获得洞察数据的能力,包括:
第一步:样本数据的描述统计;
剔除缺失数据:
标准正态分布:均值为0,标准差为1;
转为标准正态分布的目的:算面积;
任何一个正态分布,都可以转为标准正态分布;
- 数据质量评估
- 极端值诊断
- 统计分布
- 基本描述统计
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715154714037-1925295109.png)
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715154739225-314654807.png)
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715154756912-972536351.png)
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715154821007-443948688.png)
对称分布/左偏分布/右偏分布:较低的线在哪边就是哪偏分布;
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715154900192-2094300300.png)
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715154921804-1014834930.png)
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715154937814-618417785.png)
SK:偏态系数;
大部分PM2.5值都在0-100之间;
![](https://www.icode9.com/i/l/?n=18&i=blog/1022151/201907/1022151-20190715155022064-1522903376.png)
对于非对称性分布:用1.5的四分位差的标准来算;
标签:极端,正态分布,统计学,分布,标准差,数据,描述统计 来源: https://www.cnblogs.com/momo798/p/11189365.html