首页 > 其他分享> > 不抛弃异常值的几种情况

不抛弃异常值的几种情况

2021-06-08 16:57:23 作者：互联网

异常数据是数据分布的常态，处于特定分布区域或范围之外的数据
通常会被定义为异常或“噪音”。产生数据“噪音”的原因很多，例如业务
运营操作、数据采集问题、数据同步问题等。对异常数据进行处理前，
需要先辨别出到底哪些是真正的数据异常。

从数据异常的状态看分为两
种：
·一种是“伪异常”，这些异常是由于业务特定运营动作产生，其实
是正常反映业务状态，而不是数据本身的异常规律。
·一种是“真异常”，这些异常并不是由于特定的业务动作引起的，
而是客观地反映了数据本身分布异常的个案。

大多数数据挖掘或数据工作中，异常值都会在数据的预处理过程中
被认为是噪音而剔除，以避免其对总体数据评估和分析挖掘的影响。但
在以下几种情况下，无须对异常值做抛弃处理。
1.异常值正常反映了业务运营结果
该场景是由业务部门的特定动作导致的数据分布异常，如果抛弃异
常值将导致无法正确反馈业务结果。
例如：公司的A商品正常情况下日销量为1000台左右。由于昨日举
行优惠促销活动导致总销量达到10000台，由于后端库存备货不足导致
今日销量又下降到100台。在这种情况下，10000台和100台都正确反映
了业务运营的结果，而非数据异常。
2.异常检测模型
异常检测模型是针对整体样本中的异常数据进行分析和挖掘以便找
到其中的异常个案和规律，这种数据应用围绕异常值展开，因此异常值
不能做抛弃处理。
异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、
药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。在这
种情况下，异常数据

标签：异常,运营,业务,几种,抛弃,检测,数据
来源： https://blog.csdn.net/gulie8/article/details/117707640