编程语言
首页 > 编程语言> > 「Python数据处理总结」数据冲突和样本的选取和处理

「Python数据处理总结」数据冲突和样本的选取和处理

作者:互联网

文章目录

内容介绍

将日常工作中遇到的数数据冲突和样本源的方法进行总结,其中主要包括 实际业务数据冲突、样本选取问题、数据共线性 等思路,并且长期更新。

实际业务数据冲突

多业务数据源冲突是指来自多个或具有相同业务逻辑但结果不同的系统,环境,平台和工具的数据。根据冲突的不同特征。

一般数据冲突类型:

一般数据冲突原因:

内部工具和第三方工具之间的数据冲突。为什么获得的数据与代理商或广告媒体提供的广告数据之间存在差异,有时差异会特别大?网站分析工具获得的数据与广告媒体和代理商提供的数据之间不可避免地存在差异。 指标的不同定义,不同的收集逻辑,系统过滤规则不同,不同的更新时间,不同的监控位置等等不同步的原因都会产生这些问题。

一般数据处理方法:

目前来说没有一个统一的标准,根据实际需要进行处理即可。

样本的选择

数据抽样还是全量基于已经有的数据来说,肯定是数据越全越好,但是实际情况并不是那么理想,我们只能利用统计学的方法使用抽样的方式进行取样比较理想。

一般数据采样方法:

抽样方法通常分为非概率抽样和概率抽样。非概率采样不是基于均等概率原理,而是基于人类的主观经验和状态。概率抽样基于数学概率论,而抽样则基于随机性原理。

注意的几个问题:

数据采样必须反映操作的背景,不存在业务随机性及业务数据可行性问题,最重要的数据采样必须满足数据分析和建模的需求

数据的共线性

所谓共线性(也称为多重共线性)问题是指输入自变量之间的高线性相关性。共线性问题将大大降低回归模型的稳定性和准确性。例如具有明显共线性的数据:访问和页面浏览量;页面浏览量和访问时间;订单数量和销售等。

一般产生原因:

检验共线性: 共线性通常由公差,方差因子和特征值的特征数据确定,做出判断。

解决共线性的5种常用方法:

标签:共线性,采样,抽样,Python,样本,冲突,数据处理,数据
来源: https://blog.csdn.net/qq_20288327/article/details/118464382