其他分享
首页 > 其他分享> > 数据预处理-离群值处理

数据预处理-离群值处理

作者:互联网

@数据分析预处理

离群值检测

回归

在这里插入图片描述

3σ法

样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算:Z-score(x)=(x-μ)/σ
得到样本的Z-score值后,通常将满足条件|Z-score(x)|>3的样本视为离群值称为3σ法。

箱线图

是检验样本数据中异常值的常用方法,与3σ法不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断,适用范围广。
箱线图由最大值、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1)和最小值五个统计量构成,Q1到Q3的间距为IQR,箱两端分别为上四分位数 (Q3)、下四分位数 (Q1) , 最大值、最小值分别为箱两端的须, 箱线图法中样本数据大于Q3+1.5IQR和小于Q-1.5IQR定义为异常值 (outlier)。
pandas 方法:
plt.plot.box()

python 方法:
plt.plotbox

基于近邻判断离群值

通过比较每个点

标签:Q3,处理,样本,距离,四分,离群,异常,预处理
来源: https://blog.csdn.net/it_liujh/article/details/123197112