80道数据挖掘单选题,背会了应付一般地面试,没有问题(下)
作者:互联网
41.频繁项集、频繁闭项集、最大频繁项集之间的关系是: ©
A、频繁项集 频繁闭项集 =最大频繁项集
B、频繁项集 = 频繁闭项集 最大频繁项集
C、频繁项集 频繁闭项集 最大频繁项集
D、频繁项集 = 频繁闭项集 = 最大频繁项集
42.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含(C)
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
43.下面选项中t不是s的子序列的是 ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>
44.在图集合中发现一组公共子结构,这样的任务称为 ( B )
A、频繁子集挖掘
B、频繁子图挖掘
C、频繁数据项挖掘
D、频繁模式挖掘
45.下列度量不具有反演性的是 (D)
A、系数
B、几率
C、Cohen度量
D、兴趣因子
46.下列__(A)__不是将主观信息加入到模式发现任务中的方法。
A、与同一时期其他数据对比
B、可视化
C、基于模板的方法
D、主观兴趣度量
47.下面购物篮能够提取的3-项集的最大数量是多少(C)
ID 购买项
1 牛奶,啤酒,尿布
2 面包,黄油,牛奶
3 牛奶,尿布,饼干
4 面包,黄油,饼干
5 啤酒,饼干,尿布
6 牛奶,尿布,面包,黄油
7 面包,黄油,尿布
8 啤酒,尿布
9 牛奶,尿布,面包,黄油
10 啤酒,饼干
A、1
B、2
C、3
D、4
48.以下哪些算法是分类算法,(B)
A,DBSCAN
B,C4.5
C,K-Mean
D,EM
49.以下哪些分类方法可以较好地避免样本的不平衡问题, (A)
A,KNN
B,SVM
C,Bayes
D,神经网络
50.决策树中不包含一下哪种结点, ©
A,根结点(root node)
B,内部结点(internal node)
C,外部结点(external node)
D,叶结点(leaf node)
51.不纯性度量中Gini计算公式为(其中c是类的个数) (A)
A, B, C, D, (A)
53 以下哪项关于决策树的说法是错误的 ©
A. 冗余属性不会对决策树的准确率造成不利的影响
B. 子树可能在决策树中重复多次
C. 决策树算法对于噪声的干扰非常敏感
D. 寻找最佳决策树是NP完全问题
54.在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)
A. 基于类的排序方案
B. 基于规则的排序方案
C. 基于度量的排序方案
D. 基于规格的排序方案。
55.以下哪些算法是基于规则的分类器 (A)
A. C4.5
B. KNN
C. Na?ve Bayes
D. ANN
56.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为(C);
A, 无序规则
B,穷举规则
C, 互斥规则
D,有序规则
57.如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为(B)
A, 无序规则
B,穷举规则
C, 互斥规则
D,有序规则
58.如果规则集中的规则按照优先级降序排列,则称规则集是 (D)
A, 无序规则
B,穷举规则
C, 互斥规则
D,有序规则
59.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)
A, 无序规则
B,穷举规则
C, 互斥规则
D,有序规则
60.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 ©
A,0.75
B,0.35
C,0.4678
D, 0.5738
61.以下关于人工神经网络(ANN)的描述错误的有 (A)
A,神经网络对训练数据中的噪声非常鲁棒
B,可以处理冗余特征
C,训练ANN是一个很耗时的过程
D,至少含有一个隐藏层的多层神经网络
62.通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)
A,组合(ensemble)
B,聚集(aggregate)
C,合并(combination)
D,投票(voting)
63.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类
64.在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
A、曼哈顿距离
B、平方欧几里德距离
C、余弦距离
D、Bregman散度
65.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A、边界点
B、质心
C、离群点
D、核心点
66.BIRCH是一种( B )。
A、分类器
B、聚类算法
C、关联分析算法
D、特征选择算法
67.检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。
A、统计方法
B、邻近度
C、密度
D、聚类技术
68.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
A、MIN(单链)
B、MAX(全链)
C、组平均
D、Ward方法
69.( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。
A、MIN(单链)
B、MAX(全链)
C、组平均
D、Ward方法
70.DBSCAN在最坏情况下的时间复杂度是( B )。
A、O(m)
B、O(m2)
C、O(log m)
D、O(m*log m)
71.在基于图的簇评估度量表里面,如果簇度量为proximity(Ci , C),簇权值为mi ,那么它的类型是( C )。
A、基于图的凝聚度
B、基于原型的凝聚度
C、基于原型的分离度
D、基于图的凝聚度和分离度
72.关于K均值和DBSCAN的比较,以下说法不正确的是( A )。
A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
73.以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( C )。
A、MST
B、OPOSSUM
C、Chameleon
D、Jarvis-Patrick(JP)
74.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( D )的相似度计算方法。
A、平方欧几里德距离
B、余弦距离
C、直接相似度
D、共享最近邻
75.以下属于可伸缩聚类算法的是( A )。
A、CURE
B、DENCLUE
C、CLIQUE
D、OPOSSUM
76.以下哪个聚类算法不是属于基于原型的聚类( D )。
A、模糊c均值
B、EM算法
C、SOM
D、CLIQUE
77.关于混合模型聚类算法的优缺点,下面说法正确的是( B )。
A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。
B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。
C、混合模型很难发现不同大小和椭球形状的簇。
D、混合模型在有噪声和离群点时不会存在问题。
78 以下哪个聚类算法不属于基于网格的聚类算法( D )。
A、STING
B、WaveCluster
C、MAFIA
D、BIRCH
79.一个对象的离群点得分是该对象周围密度的逆。这是基于( C )的离群点定义。
A.概率
B、邻近度
C、密度
D、聚类
80.下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是( D )。
A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。
B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。
C、JP聚类是基于SNN相似度的概念。
D、JP聚类的基本时间复杂度为O(m)。
文章来源:网络 版权归原作者所有
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理
标签:基于,聚类,项集,频繁,算法,规则,数据挖掘,单选题,背会 来源: https://blog.csdn.net/xuezhangmen/article/details/119205132