首页 > 其他分享> > 挖掘

挖掘

2021-04-01 11:33:28 作者：互联网

一、考试题型

1.填空：5-10分

2.选择：25单选，5多选

3.判断：10个，每个1分

4.图形题：图形补全。

5.计算题：5-6个

6.综合题：自己去论述，做数据分析与挖掘，几个步骤。怎么考虑。每个步骤使用什么技术。给个案例，你来完成整个过程。

二、第5章聚类：

聚类：算法：基于划分、基于层次、基于密度、基于网格。（选择题：给你个算法让你判断他是那个类型的算法？让你找选项里面那个是或者那个不是这类算法。）

距离的度量：会计算欧氏距离、杰卡德距离；（判断、选择题）：有无量纲，（幂距离、欧氏距离、曼哈顿距离、兰氏距离、马氏距离、杰卡德距离、余弦相似度）。

幂距离（欧氏距离，曼哈顿距离，切比雪夫举例）有量纲

余弦相似度，兰氏距离无量纲，

算法：K均值、K中心值，会使用算法进行聚类，根据聚类结果比较算法的优缺点；（）

k均值：缺点：K是事先给定的，K其实是很难估计的；初始质心的随机选取可能会导致局部最优解，无法获得全局最优解；时间复杂度高；受噪声数据的干扰较大

K中心点：与K均值相比的优点：因为K均值算法过程中质心的选择是虚拟的，所以受异常值的影响较大，但是K中心点每次质心的选择方法是，簇内距离其他点距离最短的点，是真实存在的，所以受异常值的影响较小

K均值的改进算法：二分k均值、小批量K均值、K均值++对K均值进行了哪些改进（判断、选择）

二分：降低了计算次数

小批量K均值：从不同聚类的样本中抽取一部分样本来代表各自聚类进行计算

K均值++：初始质心的选取方式，距离已有的聚类中心越远的点，被选取作为聚类中心的概率越大

基于密度聚类算法：DBSCAN核心概念（填空、选择）、优缺点（选择、判断）。OPTICS算法核心概念（填空、选择）、要求会计算。P186-187图理解。P188图（图形题）。

DBSCAN：核心点，直接密度可达，密度可达，密度相连，优点：不需要提前设置K，可以对

层次聚类：会用最短距离和最长距离进行层次聚类。（计算题、大家画图。P194页示例5-22示例5-23）。

单调性、空间的浓缩和扩张（判断、选择）（最短、最长、中间、重心、平均法）了解其单调性、和浓缩、扩张。

空间浓缩：最短距离法，重心法

空间扩张：最长距离法，

类平均法适中

重心法和中间距离具不具有单调性

最短，最长距离法具有单调性，类平均法具有单调性。

基于网格聚类：简单了解（STING、CLIQUE是基于网格聚类）（选择、判断）。

P230:5/6/7的第一问。11看一看。

三、第4章分类回归算法：

决策树重点：概念：信息熵、信息增益、信息增益率、gini系数。会计算。实质是：会用ID3、C4.5、CART算法进行分类。P87实例4-1掌握。（计算题）P106页对比（判断题）

信息熵：度量信源X整体的不确定性 info（D） info天气（D）

信息增益：

ID3 Gain（D）信息增益

C4.5 信息增益率 GainRate（D）

CART Gini系数

信息增益适用于多值属性，但是容易建立浅且多分支的树

信息增益率适用于不对称划分，一个属性值个数明显比另一个多

Gini系数适用于均匀的分布

过拟合、欠拟合会判断。剪枝算法：预剪枝、后剪枝（填空）。自底向上、自顶向下。（判断）。

KNN算法：KD树构造（掌握）（图形题、给你P116页的图、你给我画出构造过程图。P117页的图。）

组合算法：Adaboost、bagging、随机森林的并行性。（判断、选择）

分类器算法的评估：

混淆矩阵会计算、ROC曲线会判定。

混淆矩阵与ROC AUC 是判断分类器好坏的评估标准

回归和分类的区别、分类和聚类的区别。（判断）

逻辑回归P152页，图4-47出选择题。图给你，你给我对应是线性回归还是逻辑回归。

决策树：计算：示例4-20.

分类算法：ID3， C4.5，组合分类算法： Adaboost 串行, Bagging 并行, Randomforest 并行

回归算法：线性回归，逻辑回归，岭回归，多项式回归

逻辑回归其实是 01分类算法， CART算法（ Classification and Regression Tree ）可以用来分类和回归，

Confusion Matrix 混淆矩阵，AUC ROC 用来评判分类器

提升树：P157页图4-51,（图形题）。

习题：2,4会计算。

四、第3章关联规则挖掘

基本概念：支持度、频繁项集、强关联规则、置信度等等这些概念会用做关联分析。Apriori算法P61页这个例子，掌握（计算题）。Apriori算法的改进有哪些（选择题）。

FPGrowth算法了解不需要产生候选项集的频繁模式挖掘算法。

多层关联规则挖掘：P75页的例子（）（计算）

序列模式算法：prefixSpan：会找前缀、后缀。

习题：8.

五、第2章数据特征分析与预处理

数据类型：数据集类型和数据属性类型（有哪些？会区分）（填空、选择、判断）

数据集的分类：

结构化数据：.excel , .csv

半结构化数据： json， xml

非结构化数据：视频，音频，图像

数据属性类型：

标称属性：红橙黄绿蓝靛紫，：二元属性： 0 1 无法比较大小，不能进行运算

序数属性：优良中差，高矮胖瘦

数据描述性特征：分类：集中趋势、离中趋势（度量的量：会判定）。另外、算术平均数、中位数、众数、四分位数、，极差，四分位数极差会计算。

集中趋势：平均数，中位数，众数，k百分位数

离中趋势：极差，IQR四分位数极差方差标准差，

分布形态的度量：会看图、给你图形让你判定正偏态、负偏态。峰度、会根据k值判定常峰态、低峰态、尖峰态。以及偏度和峰度的作用。（选择、判断）。

左偏态，右偏态。 k=0 常峰态， k>0 低峰态， k>0 高峰态

估计数据分布与正态分布的差异

可视化：会看箱型图。（图形题）。

相关性分析：手段有哪些？散点图、相关系数（判定正相关、负相关、不相关），根据相关系数判定。

五位一体箱型图：max Q3 median Q2 min

<0 负相关 >0 正相关 =0 不相关

预处理：零均值、Z分数变换（适用范围），独热编码（会编码），缺点。

z分数变化的适用范围：最好是正态分布的数据

抽样：不放回、水库抽样（算法描述）。

不放回抽样：不放回抽样

水库抽样：（从n个元素中抽取k个元素，且每个元素被抽取的概率都是一样的，适用情况n是不确定的，因为输入是数据流）

input：包含n个元素的数据流S，第i个元素为Si
output：包含k个元素的缓存R
过程描述：前k个元素直接放入缓存
i 从 k+1 到 n，每次随机生成一个 [1,i] 的随机数j，如果j<=k 就交换对应位置的值

主成分分析：PCA是一个降维方法。

数据清洗：

1.缺失值：完全变量、不完全变量、会判定完全随机缺失、随机缺失、非随机缺失。，会使用均值填充法进行填充。

PCA 主成分分析 : 降维的数据分析方法

完全变量：不含缺失值的变量（属性）

不完全变量：含缺失值的变量

完全随机缺失

随机缺失：依赖于其他的完全变量，如性别 ———— 年龄

非随机缺失：依赖于此非完全变量本身，如收入——高收入者刻意隐瞒

平滑噪声：四种分箱方法（会使用等深分箱法、等宽分箱法）+平均值平滑。示例2-26.计算。

等深分箱，等宽分箱，最小熵法，用户自定义区间法

习题：4，5

六、第1章

大数据的4V（填空、选择）

数据挖掘提取出来的知识有哪些：（填空、选择）

大数据分析与挖掘的步骤和主要功能。综合题。

容量，速度，密度，多样

挖掘：知识，规则，规律，模式

1.确定任务目标：根据需求与先验知识，确定目标

2.目标数据集的提取：从相关的所有数据中抽取数据集，并选择全部数据属性中与目标最相关的属性子集

3.数据预处理：提取到的目标数据往往质量低，需要进行预处理，如数据清洗，数据规约，数据集成，数据转换，高质量的数据往往是数据分析与挖掘成功的关键

4.建立适当的数据分析与挖掘模型：具体问题用具体的模型，如回归模型，分类模型，聚类模型，关联规则挖掘

5.模型的解释与评估：将数据可视化，为了找到用户真正感兴趣的模型

6.知识的应用：将获取到的模型进行应用，并不断的调整模型

水库抽样

平滑数据：

等深分箱：P51

等宽分箱： ( max - min ) / 组数向左取整

分箱之前一定要先对数据进行排序

（ 34 - 4 ）/ 3 = 10

4 8 9

15 21 21 24 25

26 28 29 34

均值平滑： 7 21.2 29.25

均值平滑后的数据：

7 7 7 21.2 21.2 21.2 21.2 21.2 29.25 29.25 29.25 29.25

K-Means聚类

K-中心点聚类

KNN算法的KD数，必须要存在的点，K-Means 的质心可以是虚的， K-中心点的质心必须是簇中的点，用于平滑数据的等宽分箱法的向左取值

标签：分箱,均值,距离,算法,聚类,挖掘,数据
来源： https://blog.csdn.net/qq_924485343/article/details/115250277