其他分享
首页 > 其他分享> > 挖掘

挖掘

作者:互联网

一、考试题型

1.填空:5-10分

2.选择:25单选,5多选

3.判断:10个,每个1分

4.图形题:图形补全。

5.计算题:5-6个

6.综合题:自己去论述,做数据分析与挖掘,几个步骤。怎么考虑。每个步骤使用什么技术。给个案例,你来完成整个过程。

二、第5章聚类:

聚类:算法:基于划分、基于层次、基于密度、基于网格。(选择题:给你个算法让你判断他是那个类型的算法?让你找选项里面那个是或者那个不是这类算法。)

距离的度量:会计算欧氏距离、杰卡德距离;(判断、选择题):有无量纲,(幂距离、欧氏距离、曼哈顿距离、兰氏距离、马氏距离、杰卡德距离、余弦相似度)。

幂距离(欧氏距离,曼哈顿距离,切比雪夫举例)有量纲

余弦相似度,兰氏距离无量纲,

算法:K均值、K中心值,会使用算法进行聚类,根据聚类结果比较算法的优缺点;()

k均值:缺点:K是事先给定的,K其实是很难估计的; 初始质心的随机选取可能会导致局部最优解,无法获得全局最优解; 时间复杂度高; 受噪声数据的干扰较大

K中心点: 与K均值相比的优点:因为K均值算法过程中质心的选择是虚拟的,所以受异常值的影响较大,但是K中心点每次质心的选择方法是,簇内距离其他点距离最短的点,是真实存在的,所以受异常值的影响较小

 

K均值的改进算法:二分k均值、小批量K均值、K均值++对K均值进行了哪些改进(判断、选择)

二分:降低了计算次数

小批量K均值:从不同聚类的样本中抽取一部分样本来代表各自聚类进行计算

K均值++:初始质心的选取方式,距离已有的聚类中心越远的点,被选取作为聚类中心的概率越大

基于密度聚类算法:DBSCAN核心概念(填空、选择)、优缺点(选择、判断)。OPTICS算法核心概念(填空、选择)、要求会计算。P186-187图理解。P188图(图形题)。

DBSCAN: 核心点,直接密度可达,密度可达,密度相连,优点:不需要提前设置K,可以对

层次聚类:会用最短距离和最长距离进行层次聚类。(计算题、大家画图。P194页示例5-22示例5-23)。

单调性、空间的浓缩和扩张(判断、选择)(最短、最长、中间、重心、平均法)了解其单调性、和浓缩、扩张。

空间浓缩:最短距离法,重心法

空间扩张:最长距离法,

类平均法适中

重心法和中间距离具不具有单调性

最短,最长距离法具有单调性,类平均法具有单调性。

基于网格聚类:简单了解(STING、CLIQUE是基于网格聚类)(选择、判断)。

P230:5/6/7的第一问。11看一看。

三、第4章分类回归算法:

决策树重点:概念:信息熵、信息增益、信息增益率、gini系数。会计算。实质是:会用ID3、C4.5、CART算法进行分类。P87实例4-1掌握。(计算题)P106页对比(判断题)

信息熵:度量信源X整体的不确定性     info(D)  info天气(D)    

信息增益: 

ID3 Gain(D) 信息增益

C4.5 信息增益率  GainRate(D)

CART  Gini系数

 

信息增益适用于 多值属性,但是容易建立 浅且多分支的树

信息增益率适用于不对称划分,一个属性值个数明显比另一个多

Gini系数适用于 均匀的分布

过拟合、欠拟合会判断。剪枝算法:预剪枝、后剪枝(填空)。自底向上、自顶向下。(判断)。

KNN算法:KD树构造(掌握)(图形题、给你P116页的图、你给我画出构造过程图。P117页的图。)

组合算法:Adaboost、bagging、随机森林的并行性。(判断、选择)

分类器算法的评估:

混淆矩阵会计算、ROC曲线会判定。

混淆矩阵与ROC AUC 是 判断 分类器好坏的 评估标准

回归和分类的区别、分类和聚类的区别。(判断)

逻辑回归P152页,图4-47出选择题。图给你,你给我对应是线性回归还是逻辑回归。

决策树:计算:示例4-20.

分类算法:ID3, C4.5,   组合分类算法: Adaboost 串行, Bagging 并行, Randomforest 并行

回归算法: 线性回归, 逻辑回归, 岭回归, 多项式回归

逻辑回归其实是 01分类算法,  CART算法( Classification and Regression Tree ) 可以用来 分类 和 回归,

Confusion Matrix 混淆矩阵,AUC ROC 用来 评判 分类器

提升树:P157页图4-51,(图形题)。

习题:2,4会计算。


四、第3章关联规则挖掘

基本概念:支持度、频繁项集、强关联规则、置信度等等这些概念会用做关联分析。Apriori算法P61页这个例子,掌握(计算题)。Apriori算法的改进有哪些(选择题)。

FPGrowth算法了解不需要产生候选项集的频繁模式挖掘算法。

多层关联规则挖掘:P75页的例子()(计算)

序列模式算法:prefixSpan:会找前缀、后缀。

习题:8.

五、第2章数据特征分析与预处理

数据类型:数据集类型和数据属性类型(有哪些?会区分)(填空、选择、判断)

数据集的分类:

结构化数据:.excel , .csv

半结构化数据: json, xml

非结构化数据: 视频,音频,图像

数据属性类型:

标称属性:红橙黄绿蓝靛紫,  : 二元属性 : 0 1                   无法比较大小,不能进行运算

序数属性:优良中差,高矮胖瘦

数据描述性特征:分类:集中趋势、离中趋势(度量的量:会判定)。另外、算术平均数、中位数、众数、四分位数、,极差,四分位数极差会计算。

集中趋势: 平均数,中位数,众数,k百分位数 

离中趋势:极差,IQR四分位数极差方差标准差,

分布形态的度量:会看图、给你图形让你判定正偏态、负偏态。峰度、会根据k值判定常峰态、低峰态、尖峰态。以及偏度和峰度的作用。(选择、判断)。

左偏态,右偏态。  k=0 常峰态, k>0 低峰态, k>0 高峰态

估计数据分布与正态分布的差异    

可视化:会看箱型图。(图形题)。

相关性分析:手段有哪些?散点图、相关系数(判定正相关、负相关、不相关),根据相关系数判定。

五位一体箱型图:max Q3 median Q2 min

<0 负相关   >0 正相关   =0 不相关

预处理:零均值、Z分数变换(适用范围),独热编码(会编码),缺点。

z分数变化的适用范围:最好是 正态分布的数据

抽样:不放回、水库抽样(算法描述)

不放回抽样: 不放回抽样  

水库抽样:( 从n个元素中抽取k个元素,且每个元素被抽取的概率都是一样的,适用情况n是不确定的,因为输入 是 数据流 )

  • input: 包含n个元素的数据流S, 第i个元素为Si
  • output: 包含k个元素的缓存R
  • 过程描述:前k个元素直接放入缓存
    •                   i 从 k+1 到 n,  每次随机生成一个 [1,i] 的 随机数j,如果j<=k 就交换对应位置的值 

主成分分析:PCA是一个降维方法。

数据清洗:

1.缺失值:完全变量、不完全变量、会判定完全随机缺失、随机缺失、非随机缺失。,会使用均值填充法进行填充。

PCA 主成分分析  :  降维的数据分析方法

完全变量:不含缺失值的变量(属性)

不完全变量:含缺失值的变量

完全随机缺失

随机缺失:依赖于其他的完全变量,如 性别 ———— 年龄

非随机缺失: 依赖于此非完全变量本身,如 收入——高收入者刻意隐瞒

平滑噪声:四种分箱方法(会使用等深分箱法、等宽分箱法)+平均值平滑。示例2-26.计算。

等深分箱,等宽分箱,最小熵法,用户自定义区间法

习题:4,5

 

六、第1章

大数据的4V(填空、选择)

数据挖掘提取出来的知识有哪些:(填空、选择)

大数据分析与挖掘的步骤和主要功能。综合题。

容量,速度,密度,多样

挖掘:知识,规则,规律,模式

1.确定任务目标:根据需求与先验知识,确定目标

2.目标数据集的提取:从相关的所有数据中抽取数据集,并选择全部数据属性中与目标最相关的属性子集

3.数据预处理:提取到的目标数据往往质量低,需要进行预处理,如数据清洗,数据规约,数据集成,数据转换,高质量的数据往往是数据分析与挖掘成功的关键

4.建立适当的数据分析与挖掘模型:具体问题用具体的模型,如回归模型,分类模型,聚类模型,关联规则挖掘

5.模型的解释与评估:将数据可视化,为了找到 用户 真正感兴趣的模型

6.知识的应用:将获取到的模型进行应用,并不断的调整模型

 

 


水库抽样

平滑数据:

        等深分箱:P51

        等宽分箱: ( max - min ) / 组数        向左取整

分箱之前一定要先对数据进行排序

( 34 - 4 )/ 3 = 10

4 8 9 

15 21 21 24 25

26 28 29 34 

均值平滑: 7    21.2    29.25

均值平滑后的数据:

7 7 7 21.2 21.2 21.2 21.2 21.2  29.25 29.25 29.25 29.25

K-Means聚类

K-中心点聚类

 

KNN算法的KD数,必须要存在的点,K-Means 的质心可以是虚的, K-中心点的质心必须是 簇中的点, 用于平滑数据的 等宽分箱法 的 向左取值

标签:分箱,均值,距离,算法,聚类,挖掘,数据
来源: https://blog.csdn.net/qq_924485343/article/details/115250277