数据挖掘-数据预处理-02
作者:互联网
数据类型
属性:数据对象的性质或者特性,又称特征。每个数据对象都可以用一组属性描述。
数值属性的大小比较和其单位有关,其数值大小比较所得的结果可能不是和加上单位后比较一致。属性值加上单位描述才有清晰的意义。
二元属性根据两种状态是否具有同等价值且有相同权重可分为对称或者非对称两种类型。
属性类型
- 定性
- 标称,如枚举类型
- 序数,值可以排序
- 二元,仅有两个值
- 定量
- 区间,有序,值能够进行加或者减操作
- 比率,可以进行任何数值操作
有序数据:数据对象之间存在时间后者空间上的顺序关系。
分类
- 时序数据
- 序列数据,如用户从进入网站到离开网站期间所做的点击操作按照先后顺序构成的点击序列。
数据预处理
数据清理的主要任务:通过填写缺失值、光滑噪声数据、删除离群点和解决属性不一致性问题等对数据进行处理。
处理缺失值
- 忽略元组:去掉有缺失属性的元组。
- 数据补齐:用特定值替代缺失属性的值。
- 人工填写
- 特殊值填写
- 平均值填写:数值属性使用平均值填写;倾斜分布情形使用中位数填写;非属性属性使用出现频率的值填写。
- 使用最可能的值填写:采用基于推断的方法填充空缺值。
- 不处理
噪声:测量变量中随机错误或者误差。
消除方法:对数值进行平滑处理。
分箱:根据相邻数据确定最终值。实质是将数据分为个数相等的块,每个块就是一个箱,在箱内根据某种方式将箱内的值变换为某一值。
- 按箱平均值
- 按箱中值:箱内处于中间位置的值为该箱中的所有值。
- 按箱边界值
孤立点:某种意义上具有不同于数据集中其他大部分数据对象特征的数据对象。通过聚类检测。
数据集成任务:将互相关联的分布式异构数据源集成到一起,使用户可以以透明的方式访问这些数据源。
相同实体但名称不同问题:使用属性元数据进行数据清理。
属性冗余:一个属性可由其他一个或者多个属性推出,可能是冗余的。
- 数值属性,计算相关系数估计相关度。
A、B为属性,N为元组数量,\(a_i\),\(b_i\)是第\(i\)个元组中属性A,B的值,\(\sigma\)是标准差。\(r_{A,B}\)取值[-1,1],绝对值越大则相关性越大,正负表示正相关或者负相关。
- 离散数据,使用卡方检验。
数据值冲突:属性值的表示、规格单位、编码不同。
数据规范化包括同趋化处理和无量纲化处理。
- 最小——最大规范化(离差标准化):\(x'=\frac{x-min}{max-min}(new\_max-new\_min)+new\_min\),0-1规范化则为 \(x'=\frac{x-min}{max-min}\)
- z-score规范化(标准差标准化):\(x'=\frac{x-\overline{}A}{\sigma_A}\)
- 按小数定标规范化:\(x'=\frac{x}{10^j}\),将值转换成[0,1]之间的数。
数据约简:尽可能保持原有数据集完整性的前提下,最大限度精简数据量。
- 属性子集选择:从 m 个属性中选择 n 个属性(m > n)使得特定指标最优。
- 嵌入:挖掘算法本身包含属性选择任务。
- 过滤:属性选择独立于挖掘算法。
- 包装器:在选择属性过程中使用选择的属性训练模型。
- 主成分分析:无监督线性数据转换,在高维数据中找到最大方差方向,将数据映射到一个维数小得多的新子空间上。
- 1.数据规范化
- 2.计算协方差矩阵
- 3.求协方差矩阵特征值和正交化单位特征向量
- 4.计算累计贡献率选择主成分
- 5.主成分按重要性排序
- 6.选择重要性最高的若干主成分,忽视剩余主成分
- 离散小波变换:\(X\)表示 n 维数据向量,将 \(X\) 变换为长度相等的 \(X'\),设定阈值,过滤掉小于阈值的小波系数,保留数据主要特征。
离散化:将连续变量划分成不同类别的过程。
- 无监督,等宽分箱法和等频分箱法。
- 有监督,ChiMerge,如果相邻区间类分布非常类似,则区间合并,否则分开。
数据相似性
\(0\le Sim(\overline{X},\overline{Y})\le 1\)表示相似度,\(Dist(\overline{X},\overline{Y})\ge 0\)表示距离。
距离度量\(d(x,y)\)满足下面准则
- \(Dist(x,y)\ge 0\)
- 当且仅当\(x=y\)时,\(Dist(x,y)=0\)
- \(Dist(x,y)=Dist(y,x)\)
- \(Dist(x,y)\le Dist(x,z)+Dist(z,y)\)
距离形式有 - 1.曼哈顿距离
- 2.欧几里得距离
- 3.切比雪夫距离
- 4.闵可夫斯基距离
- 5.杰卡德距离
二元属性相似度通过对属性匹配值求和计算
\[Sim(\overline{X},\overline{Y})=\sum_{i=1}^dS(x_i,y_i) \]不同度量单位属性组合相似度
马氏距离:
\(\sum^{-1}\)是数据协方差矩阵的逆。马氏距离和测量单位无关,可排除变量相关性干扰。
不同对象\(X\),\(Y\)相似度计算
- 1.将第 \(k\) 个属性标准化到 [0,1],计算相似度 \(S_{k}(X,Y)\)
- 2.创建指示变量 \(\epsilon_k\),标识两个对象是否在第 \(k\) 个属性上取值为0,若同时为0,则\(\epsilon_k=0\),否则\(\epsilon_k=1\)
- 3.计算相似度
使用权值
\[Sim(X,Y)=\frac{\sum_{k=1}^nW_k\epsilon_kS_k(X,y)}{\sum_{k=1}^n\epsilon_k} \]文档相似度
余弦相似度
词频-逆文档频率(TF-IDF)
\[TF_w=\frac{文档X中词语w出现的次数}{文档X中所有词语出现的次数} \]\[IDF=\log_2{\frac{语料库的文档总数}{包含该词的文档数+1}} \]\[TF-IDF=TF\times IDF \]选出表征文档特性的关键词,然后计算相似度。
离散序列相似性
编辑距离:将某一序列编译成另一序列所需的最少操作次数。操作类型有替换、插入和删除。
最长公共子序列:一个序列\(S\),如果是两个及以上序列的子序列,且是子序列中最长的,则\(S\)称为最长公共子序列。
若 \(X={x_1,x_2,...,x_m}\)和\(Y={y_1,y_2,...,y_n}\)的最长公共子序列为\(Z={z_1,z_2,...,z_k}\),则
- 若\(x_m=y_n\),则\(z_k=x_m=y_n\),且\(z_{k-1}\)是\(x_{m-1}\)和\(y_{n-1}\)的最长公共子序列。
- 若\(x_m\ne y_n\)且\(z_k\ne x_m\),则Z是\(x_{m-1}\)和Y的最长公共子序列。
- 若\(x_m\ne y_n\)且\(z_k\ne y_n\),则Z是X和\(y_{n-1}\)的最长公共子序列。
标签:02,frac,sum,overline,数据挖掘,Dist,数据,预处理,属性 来源: https://www.cnblogs.com/xdreamc/p/14963625.html