其他分享
首页 > 其他分享> > 数据预处理ETL

数据预处理ETL

作者:互联网

数据预处理ETL

数据的质量直接决定数据分析结果的好坏,真实的数据可能由于记录失败、数据损坏等原因产生缺失值,或由于噪声、人工录入错误产生的异常点。这会使得后续的数据分析非常困难,分析结果不可靠;数据预处理的目的就是改善数据质量,提升分析可靠性。

数据预处理的主要过程有数据抽取(Extraction)、数据转换(Transformation)和数据加载(Loading),也称为ETL

其主要步骤包括以下几个部分

1. 数据清洗

通过缺失值处理光滑噪声数据,平滑或删除离群点,并解决数据的不一致性来“清洗”数据。

1.1 缺失值处理

一般用?,null 空格表示

1.1.1 单变量填充方法

1.1.2 多变量填充方法

1.1.3 缺失值处理方法汇总

image-20211223203526319

1.2 异常值处理

3∂原则

正态分布函数公式如下:

img

σ代表标准差,μ代表均值

样本数据服从正态分布的情况下:

数值分布在(μ-σ,μ+σ)中的概率为0.6826

数值分布在(μ-2σ,μ+2σ)中的概率为0.9544

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974

img

如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布下,距离平均值3σ之外的值出现的概率为 P(|x-μ|>3σ)<=0.003,属于极个别的小概率^事件。

Z-score

用远离平均值的多少倍标准差来描述,公式为

Why do we calculate z scores?

img

如果统计数据量足够多,Z-score数据分布满足,68%的数据分布在“-1”与“1”之间,95%的数据分布在“-2”与“2”之间,99%的数据分布在“-3”与“3之间”

箱线图 --- IQR方法

箱线图是一种基于五个统计数字(“minimum”, first quartile (Q1), median, third quartile (Q3), and “maximum”)来展示数据分布非标准化方法

计算Q1,Q2,Q3分位数的方法有很多种,这里展示的是"np"方法

(1)确定四分位数的位置。Qi所在位置np=(i*n)/4,其中i=1,2,3。n表示序列中包含的项数。
(2)如果np不为整数,Qi=X[np+1]
(3)如果np为整数,Qi=(X[np]+X[np+1])/2

IQR是统计分散程度的一个度量,分散程度通过需要借助箱线图来观察,通常把小于 Q1 - 1.5 * IQR 或者大于 Q3 + 1.5 * IQR的数据点视作离群点,探测离群点的公式是:

outliers = value < ( Q1 - 1.5 * IQR ) or value > ( Q3 + 1.5 * IQR )

image-20220212151942168

可以看到,“最大”和“最小”值之间的范围覆盖了$ 2.698\sigma $, 涵盖了99.3%的数据,异常值的出现的概率仅为0.7%,因此可通过该方式计算离群点

2. 数据集成

将多个数据源中的数据结合起来进行统一存储,如建立数据仓库。

3. 数据变换

包括对数据进行标准化离散化、稀疏化处理,达到适用于挖掘的目的;

3.1 标准化

数据中不同特征的量纲可能不一致导致数值间的值域差别大,不进行处理可能会影响到数据分析的结果

3.1.1 原因

因此,需要对值域差别大的各变量按照一定比例进行缩放,使他们拥有大致相等的值域,以便于下游分析。

image-20211209195444096

3.1.2 方法

image-20211209195633091

3.2 离散化

数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间

3.2.1 原因

3.2.2 方法

3.3 数据变换总结

image-20220106165314556

4. 数据规约

数据归约技术可以用来得到数据集的归约表示,它的规模小得多,但仍可以近似地保持原数据的完整性;在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。

参考文章

标签:变量,填充,IQR,离散,np,数据,预处理,ETL
来源: https://www.cnblogs.com/zlbingo/p/15899823.html