其他分享
首页 > 其他分享> > 数据挖掘-数据预处理-02

数据挖掘-数据预处理-02

作者:互联网

数据类型

属性:数据对象的性质或者特性,又称特征。每个数据对象都可以用一组属性描述。

数值属性的大小比较和其单位有关,其数值大小比较所得的结果可能不是和加上单位后比较一致。属性值加上单位描述才有清晰的意义。

二元属性根据两种状态是否具有同等价值且有相同权重可分为对称或者非对称两种类型。

属性类型

有序数据:数据对象之间存在时间后者空间上的顺序关系。
分类

数据预处理

数据清理的主要任务:通过填写缺失值、光滑噪声数据、删除离群点和解决属性不一致性问题等对数据进行处理。

处理缺失值

噪声:测量变量中随机错误或者误差。
消除方法:对数值进行平滑处理。
分箱:根据相邻数据确定最终值。实质是将数据分为个数相等的块,每个块就是一个箱,在箱内根据某种方式将箱内的值变换为某一值。

孤立点:某种意义上具有不同于数据集中其他大部分数据对象特征的数据对象。通过聚类检测。

数据集成任务:将互相关联的分布式异构数据源集成到一起,使用户可以以透明的方式访问这些数据源。
相同实体但名称不同问题:使用属性元数据进行数据清理。
属性冗余:一个属性可由其他一个或者多个属性推出,可能是冗余的。

\[r_{A,B}=\frac{\sum_{i=1}^n(a_i-\overline{A})(b_i-\overline{B})}{N\sigma_A\sigma_B} \]

A、B为属性,N为元组数量,\(a_i\),\(b_i\)是第\(i\)个元组中属性A,B的值,\(\sigma\)是标准差。\(r_{A,B}\)取值[-1,1],绝对值越大则相关性越大,正负表示正相关或者负相关。

数据规范化包括同趋化处理和无量纲化处理。

数据约简:尽可能保持原有数据集完整性的前提下,最大限度精简数据量。

离散化:将连续变量划分成不同类别的过程。

数据相似性

\(0\le Sim(\overline{X},\overline{Y})\le 1\)表示相似度,\(Dist(\overline{X},\overline{Y})\ge 0\)表示距离。
距离度量\(d(x,y)\)满足下面准则

\[Dist([x_1,x_2,...,x_m],[y_1,y_2,...,y_m])=\sum_{i=1}^{d}|x_i-y_i| \]

\[Dist([x_1,x_2,...,x_m],[y_1,y_2,...,y_m])=\sqrt{\sum_{i=1}^{m}(x_i-y_i)^2} \]

\[Dist([x_1,x_2,...,x_m],[y_1,y_2,...,y_m])=\lim_{p\to \infty}{(\sum_{i=1}^d{|x_i-y_i|^p})^{\frac 1p}} \]

\[Dist([x_1,x_2,...,x_m],[y_1,y_2,...,y_m])=(\sum_{i=1}^d{|x_i-y_i|^p})^{\frac 1p} \]

\[sim(A,B)=\frac{|A\cap B|}{|A\cup B|}=\frac{\sum_{i=1}^d{x_iy_i}}{\sum_{i=1}^d{x_i^2}-\sum_{i=1}^dx_iy_i+\sum_{i=1}^dy_i^2} \]

\[d_J(A,B)=1-sim(A,B)=\frac{|A\cup B|-|A\cap B|}{|A\cup B|} \]

二元属性相似度通过对属性匹配值求和计算

\[Sim(\overline{X},\overline{Y})=\sum_{i=1}^dS(x_i,y_i) \]

不同度量单位属性组合相似度
马氏距离:

\[Dist(\overline{X},\overline{Y})=(\overline{X}-\overline{Y})\sum^{-1}(\overline{X}-\overline{Y})^{T} \]

\(\sum^{-1}\)是数据协方差矩阵的逆。马氏距离和测量单位无关,可排除变量相关性干扰。

不同对象\(X\),\(Y\)相似度计算

\[Sim(X,Y)=\frac{\sum_{k=1}^n\epsilon_kS_k(X,Y)}{\sum_{k=1}^n{\epsilon_k}} \]

使用权值

\[Sim(X,Y)=\frac{\sum_{k=1}^nW_k\epsilon_kS_k(X,y)}{\sum_{k=1}^n\epsilon_k} \]

文档相似度
余弦相似度

\[cos(\overline{X},\overline{Y})=\frac{\overline{X}\overline{Y}}{\parallel\overline{X}\parallel\parallel\overline{Y}\parallel}=\frac{\sum_{i=1}^dx_iy_i}{\sqrt{\sum_{i=1}^dx_i^2}\sqrt{\sum_{i=1}^dy_i^2}} \]

词频-逆文档频率(TF-IDF)

\[TF_w=\frac{文档X中词语w出现的次数}{文档X中所有词语出现的次数} \]

\[IDF=\log_2{\frac{语料库的文档总数}{包含该词的文档数+1}} \]

\[TF-IDF=TF\times IDF \]

选出表征文档特性的关键词,然后计算相似度。

离散序列相似性
编辑距离:将某一序列编译成另一序列所需的最少操作次数。操作类型有替换、插入和删除。

\[Edit(i,j)=\begin{cases}Edit(i-1,j-1) & \text{$x_i=y_i$} \\ min(Edit(i-1,j)+w_{del}, Edit(i,j-1)+w_{ins},Edit(i-1,j-1)+w_{rep}) & \text{$x_i\ne y_i$}\end{cases} \]

最长公共子序列:一个序列\(S\),如果是两个及以上序列的子序列,且是子序列中最长的,则\(S\)称为最长公共子序列。
若 \(X={x_1,x_2,...,x_m}\)和\(Y={y_1,y_2,...,y_n}\)的最长公共子序列为\(Z={z_1,z_2,...,z_k}\),则

\[LCSS(i,j)=max\begin{cases}LCSS(i-1,j-1)+1 & \text{$x_i=y_j$}\\ LCSS(i-1,j) & \text{$x_i$不匹配}\\ LCSS(i,j-1) & \text{$y_j$不匹配}\end{cases} \]

标签:02,frac,sum,overline,数据挖掘,Dist,数据,预处理,属性
来源: https://www.cnblogs.com/xdreamc/p/14963625.html