其他分享
首页 > 其他分享> > 数据分析总结

数据分析总结

作者:互联网


引用:

最全面的数据预处理介绍 - 知乎 (zhihu.com)

数据分析——缺失值处理详解(理论篇) - 知乎 (zhihu.com)

了解数据

认识数据,知道数据的规模,取值情况,类型等

(92条消息) 机器学习数据分析方法CtrlZ1的博客-CSDN博客机器学习数据分析

数据预处理:

为什么要进行数据预处理:

原始数据普遍存在问题,通常为脏数据,必须加以处理才能用于分析,一方面要提高数据质量,另一方面为了更好的使数据适应特定的数据挖掘技术及工具。

数据进行预处理的主要步骤:

数据清洗

对缺失数据、离群点和重复数据进行处理。

去除唯一属性

唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以简单地删除这些属性即可。

处理缺失值

  1. 缺失数据的类型

    • 随机缺失:

      随机丢失意味着数据丢失的概率与丢失的数据本身无关,而仅与部分已观测到的数据有关。也就是说,数据的缺失不是完全随机的,该类数据的缺失依赖于其他完全变量。

    • 完全随机缺失:

      数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。简单来说,就是数据丢失的概率与其假设值以及其他变量值都完全无关。比如门店的计数器因为断电断网等原因在某个时段数据为空

    • 非随机缺失

      数据的缺失与不完全变量自身的取值有关。分为两种情况:

      • 缺失值取决于自身的假设值(例如,高收入人群通常不希望在调查中透露他们的收入);

      • 数据是否缺失取决于另外一个属性(假设女性通常不想透露她们的年龄,则这里年龄变量缺失值受性别变量的影响)

    前两种情况下可以根据其出现情况删除缺失值的数据,同时,随机缺失可以通过已知变量对缺失值进行估计。

    第三种情况下,删除包含缺失值的数据可能会导致模型出现偏差,同时,对数据进行填充也需要格外谨慎。

  2. 缺失值处理的三种方法

    • 不处理:

      直接使用含有缺失值的特征

      存在不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法。如:贝叶斯网络和人工神经网络等

    • 删除

      • 删除含有缺失值的特征(列):特征的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将特征删除

      • 删除含有缺失值的样本(行):对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比较小

    • 插补

      • 人工填写

        当你对自己手头的数据集足够了解时,根据领域知识来补数据,可以选择自己填写缺失值。然而一般来说,该方法很费时,当数据规模很大、空值很多的时候,该方法是不可行的。一般不推荐。

      • 特殊值填充

        将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。一般作为临时填充或中间过程。有时可能导致严重的数据偏离,一般不推荐。

      • 统计量填充

        若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况用基本统计量填充:最大值、最小值、均值、中位数、众数(非数值和数值型变量都一样)

      • 热卡填充(就近补齐)

        对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。

      • K最近距离邻法(KNN)

        先根据某种距离度量选择出k个“邻居”,他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值(最近邻居的数量),以及距离度量。KNN既可以预测离散属性(k近邻中最常见的值)也可以预测连续属性(k近邻的均值)。 根据数据类型的不同,距离度量也不尽相同:

        1. 连续数据:最常用的距离度量有欧氏距离,曼哈顿距离以及余弦距离。

        2. 分类数据:汉明(Hamming)距离在这种情况比较常用。对于所有分类属性的取值,如果两个数据点的值不同,则距离加一。汉明距离实际上与属性间不同取值的数量一致。

        KNN算法最吸引人的特点之一在于,它易于理解也易于实现。其非参数的特性在某些数据非常“不寻常”的情况下非常有优势。 ​ KNN算法的一个明显缺点是,在分析大型数据集时会变得非常耗时,因为它会在整个数据集中搜索相似数据点。此外,在高维数据集中,最近与最远邻居之间的差别非常小,因此KNN的准确性会降低。

      • 回归

        基于完整的数据集,建立回归方程,或利用机器学习中的回归算法。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。较常用。

      • 多重插补(没太搞懂暂时)

        多重填补方法分为三个步骤:

        (1)插补:将不完整数据集缺失的观测行估算填充m次。请注意,填充值是从某种分布中提取的。模拟随机抽取并不包含模型参数的不确定性。更好的方法是采用马尔科夫链蒙特卡洛模拟(MCMC,Markov Chain Monte Carlo Simulation)。这一步骤将生成m个完整的数据集。 (2)分析:分别对(m个)每一个完整数据集进行分析。 (3)合并:对来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。

离群点处理(待补)

噪声处理(待补)

数据清洗阶段结束后,得到没有错误的数据集


 

数据集成

将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。

数据规约(待补)

数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性。 这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。

数据转化:

在了解数据转化之前,要对数据的类型有一个了解:

1. 数据类型

2.类别转化:

对于非数值型,需要进行类别转换,即将非数值型转换为数值型,以方便机器学习算法后续处理。

 

类别转化完成之后,所有的数据均转为了数值型。接下来要进行数据的标准化、正则化处理等

3.数据标准化,正则化

数据标准化:

数据标准化是将样本的属性缩放到某个指定的范围。

数据标准化的原因:

常见的数据标准化方法:

 

 

 

标签:数据分析,总结,特征,样本,数值,数据,缺失,属性
来源: https://www.cnblogs.com/VVblogs/p/16172321.html