不抛弃异常值的几种情况
作者:互联网
异常数据是数据分布的常态,处于特定分布区域或范围之外的数据
通常会被定义为异常或“噪音”。产生数据“噪音”的原因很多,例如业务
运营操作、数据采集问题、数据同步问题等。对异常数据进行处理前,
需要先辨别出到底哪些是真正的数据异常。
从数据异常的状态看分为两
种:
·一种是“伪异常”,这些异常是由于业务特定运营动作产生,其实
是正常反映业务状态,而不是数据本身的异常规律。
·一种是“真异常”,这些异常并不是由于特定的业务动作引起的,
而是客观地反映了数据本身分布异常的个案。
大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中
被认为是噪音而剔除,以避免其对总体数据评估和分析挖掘的影响。但
在以下几种情况下,无须对异常值做抛弃处理。
1.异常值正常反映了业务运营结果
该场景是由业务部门的特定动作导致的数据分布异常,如果抛弃异
常值将导致无法正确反馈业务结果。
例如:公司的A商品正常情况下日销量为1000台左右。由于昨日举
行优惠促销活动导致总销量达到10000台,由于后端库存备货不足导致
今日销量又下降到100台。在这种情况下,10000台和100台都正确反映
了业务运营的结果,而非数据异常。
2.异常检测模型
异常检测模型是针对整体样本中的异常数据进行分析和挖掘以便找
到其中的异常个案和规律,这种数据应用围绕异常值展开,因此异常值
不能做抛弃处理。
异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、
药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。在这
种情况下,异常数据
标签:异常,运营,业务,几种,抛弃,检测,数据 来源: https://blog.csdn.net/gulie8/article/details/117707640