挖掘
作者:互联网
一、考试题型
1.填空:5-10分
2.选择:25单选,5多选
3.判断:10个,每个1分
4.图形题:图形补全。
5.计算题:5-6个
6.综合题:自己去论述,做数据分析与挖掘,几个步骤。怎么考虑。每个步骤使用什么技术。给个案例,你来完成整个过程。
二、第5章聚类:
聚类:算法:基于划分、基于层次、基于密度、基于网格。(选择题:给你个算法让你判断他是那个类型的算法?让你找选项里面那个是或者那个不是这类算法。)
距离的度量:会计算欧氏距离、杰卡德距离;(判断、选择题):有无量纲,(幂距离、欧氏距离、曼哈顿距离、兰氏距离、马氏距离、杰卡德距离、余弦相似度)。
幂距离(欧氏距离,曼哈顿距离,切比雪夫举例)有量纲
余弦相似度,兰氏距离无量纲,
算法:K均值、K中心值,会使用算法进行聚类,根据聚类结果比较算法的优缺点;()
k均值:缺点:K是事先给定的,K其实是很难估计的; 初始质心的随机选取可能会导致局部最优解,无法获得全局最优解; 时间复杂度高; 受噪声数据的干扰较大
K中心点: 与K均值相比的优点:因为K均值算法过程中质心的选择是虚拟的,所以受异常值的影响较大,但是K中心点每次质心的选择方法是,簇内距离其他点距离最短的点,是真实存在的,所以受异常值的影响较小
K均值的改进算法:二分k均值、小批量K均值、K均值++对K均值进行了哪些改进(判断、选择)
二分:降低了计算次数
小批量K均值:从不同聚类的样本中抽取一部分样本来代表各自聚类进行计算
K均值++:初始质心的选取方式,距离已有的聚类中心越远的点,被选取作为聚类中心的概率越大
基于密度聚类算法:DBSCAN核心概念(填空、选择)、优缺点(选择、判断)。OPTICS算法核心概念(填空、选择)、要求会计算。P186-187图理解。P188图(图形题)。
DBSCAN: 核心点,直接密度可达,密度可达,密度相连,优点:不需要提前设置K,可以对
层次聚类:会用最短距离和最长距离进行层次聚类。(计算题、大家画图。P194页示例5-22示例5-23)。
单调性、空间的浓缩和扩张(判断、选择)(最短、最长、中间、重心、平均法)了解其单调性、和浓缩、扩张。
空间浓缩:最短距离法,重心法
空间扩张:最长距离法,
类平均法适中
重心法和中间距离具不具有单调性
最短,最长距离法具有单调性,类平均法具有单调性。
基于网格聚类:简单了解(STING、CLIQUE是基于网格聚类)(选择、判断)。
P230:5/6/7的第一问。11看一看。
三、第4章分类回归算法:
决策树重点:概念:信息熵、信息增益、信息增益率、gini系数。会计算。实质是:会用ID3、C4.5、CART算法进行分类。P87实例4-1掌握。(计算题)P106页对比(判断题)
信息熵:度量信源X整体的不确定性 info(D) info天气(D)
信息增益:
ID3 Gain(D) 信息增益
C4.5 信息增益率 GainRate(D)
CART Gini系数
信息增益适用于 多值属性,但是容易建立 浅且多分支的树
信息增益率适用于不对称划分,一个属性值个数明显比另一个多
Gini系数适用于 均匀的分布
过拟合、欠拟合会判断。剪枝算法:预剪枝、后剪枝(填空)。自底向上、自顶向下。(判断)。
KNN算法:KD树构造(掌握)(图形题、给你P116页的图、你给我画出构造过程图。P117页的图。)
组合算法:Adaboost、bagging、随机森林的并行性。(判断、选择)
分类器算法的评估:
混淆矩阵会计算、ROC曲线会判定。
混淆矩阵与ROC AUC 是 判断 分类器好坏的 评估标准
回归和分类的区别、分类和聚类的区别。(判断)
逻辑回归P152页,图4-47出选择题。图给你,你给我对应是线性回归还是逻辑回归。
决策树:计算:示例4-20.
分类算法:ID3, C4.5, 组合分类算法: Adaboost 串行, Bagging 并行, Randomforest 并行
回归算法: 线性回归, 逻辑回归, 岭回归, 多项式回归
逻辑回归其实是 01分类算法, CART算法( Classification and Regression Tree ) 可以用来 分类 和 回归,
Confusion Matrix 混淆矩阵,AUC ROC 用来 评判 分类器
提升树:P157页图4-51,(图形题)。
习题:2,4会计算。
四、第3章关联规则挖掘
基本概念:支持度、频繁项集、强关联规则、置信度等等这些概念会用做关联分析。Apriori算法P61页这个例子,掌握(计算题)。Apriori算法的改进有哪些(选择题)。
FPGrowth算法了解不需要产生候选项集的频繁模式挖掘算法。
多层关联规则挖掘:P75页的例子()(计算)
序列模式算法:prefixSpan:会找前缀、后缀。
习题:8.
五、第2章数据特征分析与预处理
数据类型:数据集类型和数据属性类型(有哪些?会区分)(填空、选择、判断)
数据集的分类:
结构化数据:.excel , .csv
半结构化数据: json, xml
非结构化数据: 视频,音频,图像
数据属性类型:
标称属性:红橙黄绿蓝靛紫, : 二元属性 : 0 1 无法比较大小,不能进行运算
序数属性:优良中差,高矮胖瘦
数据描述性特征:分类:集中趋势、离中趋势(度量的量:会判定)。另外、算术平均数、中位数、众数、四分位数、,极差,四分位数极差会计算。
集中趋势: 平均数,中位数,众数,k百分位数
离中趋势:极差,IQR四分位数极差方差标准差,
分布形态的度量:会看图、给你图形让你判定正偏态、负偏态。峰度、会根据k值判定常峰态、低峰态、尖峰态。以及偏度和峰度的作用。(选择、判断)。
左偏态,右偏态。 k=0 常峰态, k>0 低峰态, k>0 高峰态
估计数据分布与正态分布的差异
可视化:会看箱型图。(图形题)。
相关性分析:手段有哪些?散点图、相关系数(判定正相关、负相关、不相关),根据相关系数判定。
五位一体箱型图:max Q3 median Q2 min
<0 负相关 >0 正相关 =0 不相关
预处理:零均值、Z分数变换(适用范围),独热编码(会编码),缺点。
z分数变化的适用范围:最好是 正态分布的数据
抽样:不放回、水库抽样(算法描述)。
不放回抽样: 不放回抽样
水库抽样:( 从n个元素中抽取k个元素,且每个元素被抽取的概率都是一样的,适用情况n是不确定的,因为输入 是 数据流 )
- input: 包含n个元素的数据流S, 第i个元素为Si
- output: 包含k个元素的缓存R
- 过程描述:前k个元素直接放入缓存
- i 从 k+1 到 n, 每次随机生成一个 [1,i] 的 随机数j,如果j<=k 就交换对应位置的值
主成分分析:PCA是一个降维方法。
数据清洗:
1.缺失值:完全变量、不完全变量、会判定完全随机缺失、随机缺失、非随机缺失。,会使用均值填充法进行填充。
PCA 主成分分析 : 降维的数据分析方法
完全变量:不含缺失值的变量(属性)
不完全变量:含缺失值的变量
完全随机缺失
随机缺失:依赖于其他的完全变量,如 性别 ———— 年龄
非随机缺失: 依赖于此非完全变量本身,如 收入——高收入者刻意隐瞒
平滑噪声:四种分箱方法(会使用等深分箱法、等宽分箱法)+平均值平滑。示例2-26.计算。
等深分箱,等宽分箱,最小熵法,用户自定义区间法
习题:4,5
六、第1章
大数据的4V(填空、选择)
数据挖掘提取出来的知识有哪些:(填空、选择)
大数据分析与挖掘的步骤和主要功能。综合题。
容量,速度,密度,多样
挖掘:知识,规则,规律,模式
1.确定任务目标:根据需求与先验知识,确定目标
2.目标数据集的提取:从相关的所有数据中抽取数据集,并选择全部数据属性中与目标最相关的属性子集
3.数据预处理:提取到的目标数据往往质量低,需要进行预处理,如数据清洗,数据规约,数据集成,数据转换,高质量的数据往往是数据分析与挖掘成功的关键
4.建立适当的数据分析与挖掘模型:具体问题用具体的模型,如回归模型,分类模型,聚类模型,关联规则挖掘
5.模型的解释与评估:将数据可视化,为了找到 用户 真正感兴趣的模型
6.知识的应用:将获取到的模型进行应用,并不断的调整模型
水库抽样
平滑数据:
等深分箱:P51
等宽分箱: ( max - min ) / 组数 向左取整
分箱之前一定要先对数据进行排序
( 34 - 4 )/ 3 = 10
4 8 9
15 21 21 24 25
26 28 29 34
均值平滑: 7 21.2 29.25
均值平滑后的数据:
7 7 7 21.2 21.2 21.2 21.2 21.2 29.25 29.25 29.25 29.25
K-Means聚类
K-中心点聚类
KNN算法的KD数,必须要存在的点,K-Means 的质心可以是虚的, K-中心点的质心必须是 簇中的点, 用于平滑数据的 等宽分箱法 的 向左取值
标签:分箱,均值,距离,算法,聚类,挖掘,数据 来源: https://blog.csdn.net/qq_924485343/article/details/115250277