首页 > 其他分享> > 大数据技术【11】

大数据技术【11】

2022-02-09 13:58:15 作者：互联网

1.推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求，推荐基于网站最热卖商品、客户所处城市、（），推测客户将来可能的购买行为。

A.客户的个人信息
B.客户过去的购买行为和购买记录
C.客户的朋友
D.客户的兴趣爱好

2.（）是一种用作显示一组数据分散情况资料的统计图，它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。

A.雷达图
B.箱形图
C.直方图
D.折线图

3.下面关于数据开放的陈述哪个是不正确的（）。

A.允许公民要求数据开放数据
B.要提供应用程序开放接口
C.要提供全部的原始数据
D.允许公众免费查询、下载

4.聚类分析是有监督学习。

5.离群点可以是合法的数据对象或者值。

6.特征提取技术依赖于特定的领域。

7.大数据的应用之一是，促进健康管理的个性化和多元化。

8.下列演示方式中，不属于传统统计图方式的是（）。

A.网络图
B.饼状图
C.曲线图
D.柱状图

9.（）是在掌握大量观察数据的基础上，利用数理统计方法建立变量与自变量之间的回归关系函数表达式。

A.指数分析
B.预测分析
C.回归分析
D.主成分分析

10.文档型（MonogoDB）数据库是关系数据库。

11.以下哪一项不属于Hadoop可以运行的模式（）。

A.伪分布式模式
B.单机（本地）模式
C.互联模式
D.分布式模式

12.（）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

A.边界点
B.核心点
C.离群点
D.质心

13.以下关于大数据关键问题的说法，不正确的是（）。

A.大数据处理问题复杂多样，难以用一种单一的计算模式涵盖互联网企业表现强势
B.大数据复杂性，不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键
C.非结构化与半结构化数据的处理是一项重要的课题
D.传统的统计理论与技术能很好地实现大数据知识发现

14.下面关于数据开放的陈述哪个是不正确的（）。

A.允许公民要求数据开放数据
B.允许公众免费查询、下载
C.要提供全部的原始数据
D.要提供应用程序开放接口

15.大数据的6V特征中，Volume表示（）

A.低价值密度
B.大量
C.高速
D.多样

16.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离（）。

A.聚类
B.分类
C.聚类
D.隐马尔可夫链

17.最早提出大数据时代概念的公司是（）。

A.麦肯锡公司
B.谷歌公司
C.微软公司
D.脸谱公司

18.（）框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。

A.Map
B.Map/Reduce
C.Reduce
D.master

19.下面（）程序负责HDFS数据存储。

A.Jobtracker
B.NameNode
C.SecondaryNameNode
D.Datanode

20.以下哪个不属于有监督学习技术（）。

A.线性回归
B.朴素贝叶斯
C.K-Means
D.CART

21.数据清洗的方法有缺失值处理、噪声数据清除、一致性检查等。

22.（）是在已知各种情况发生概率的基础上，通过构成树状结构来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

A.哈夫曼树
B.文本树
C.决策树
D.生成树

23.大数据的（），指的是数据有很多不同形式（文本、图像、视频、机器数据），无模式或者模式不明显、且语法或句义不连贯。

A.低价值密度
B.大量性
C.高速
D.多样性

24.以下说法正确的是（）。

A.可信度是对关联规则的准确度的衡量。
B.原始数据集来自多个数据库或数据仓库，它们的结构和规则是相同的。
C.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
D.聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

25.大数据处理流程不包括以下哪个（）。

A.结果展示
B.抽样统计
C.数据分析与挖掘
D.数据采集

26.下列关于网络用户行为的说法中，错误的是（）。

A.用户的隐私安全很难得以规范保护
B.网络公司能够捕捉到用户在其网站上的所有行为
C.用户离散的交互痕迹能够为企业提升服务质量提供参考
D.数字轨迹用完即自动删除

27.以下关于大数据可视化的说法，不正确的是（）

A.能够把抽象、枯燥或难以理解的内容，包括看似毫无意义的数据、信息、知识等等以一种容易理解的视觉方式展示出来
B.对多维数据进行切片、块、旋转等动作剖析数据，从而多角度多侧面观察数据
C.大数据可视化利用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行各种交互处理的理论、方法和技术
D.涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域，成为研究数据表示、数据处理、决策分析等一系列问题的综合技术

28.可用作数据挖掘分析中的关联规则算法有（）。

A.线性回归
B.决策树
C.K均值法
D.Apriori算法

29.目前所获取的总数据量的80%以上都是（）数据。。

A.文本
B.结构化
C.半结构化
D.非结构化

30.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度（）,并将这些用户喜欢的项推荐给有相似兴趣的用户。

A.相同
B.推荐
C.预测
D.相似

31.以下哪个属于非关系型数据库（）。

A.Access
B.SQL
C.MonogoDB
D.Mysql

32.以下哪个属于非关系型数据库（）。

A.Mysql
B.MonogoDB
C.SQL
D.Access

33.将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

34.最早提出大数据时代概念的公司是（）。

A.麦肯锡公司
B.微软公司
C.谷歌公司
D.脸谱公司

35.大数据的（），指的是数据有很多不同形式（文本、图像、视频、机器数据），无模式或者模式不明显、且语法或句义不连贯。

A.大量性
B.多样性
C.高速
D.低价值密度

36.对于企业来说，给用户进行各种促销或者实施运营策略的时机也比较重要，而且对不同兴趣偏好的用户最好集中处理。

37.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务（）。

A.预测建模
B.寻找模式和规则
C.建模描述
D.根据内容检索

38.（）是目标类数据的一般特性的汇总，通常以用户指定类的数据通过数据库查询收集，其输出可以用多种形式呈现，例如饼图，条形图，折线图等等。

A.数据特征
B.数据属性
C.数据采集
D.数据整合

39.以下哪些算法是基于规则的分类器（）。

A.KNN
B.C4.5
C.朴素贝叶斯
D.人工神经网络

40.以下哪个算法是分类算法（）。

A.C4.5
B.DBSCAN
C.EM
D.K-Mean

41.以下哪一项不属于Hadoop可以运行的模式（）。

A.互联模式
B.分布式模式
C.伪分布式模式
D.单机（本地）模式

42.不同的数据存在阶段，数据的价值是不同的。

43.预测建模任务主要包括哪几大类问题？

A.模式发现和模式匹配
B.分类和模式匹配
C.分类和回归
D.分类和模式发现

44.（）是数值数据分布的精确图形表示，是一个连续变量（定量变量）的概率分布的估计。它是一种条形图。

A.直方图
B.折线图
C.圆环图
D.散点图

45.从事大数据不要求举报一定的数学统计能力。

46.可视化实现时，根据可视化目标选择相应的图表形式，如果关注3个变量的分布情况，可选择（）。

A.折线直方图
B.二维散点图
C.3D区域图
D.柱状直方图

47.下列演示方式中，不属于传统统计图方式的是（）。

A.饼状图
B.柱状图
C.曲线图
D.网络图

48.以下说法正确的是（）。

A.可信度是对关联规则的准确度的衡量。
B.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
C.原始数据集来自多个数据库或数据仓库，它们的结构和规则是相同的。
D.聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

49.电商网站上的"猜你喜欢”实际上是基于（）原理。

A.物联网
B.网络爬虫
C.数据仓库
D.推荐系统

50.BIRCH是一种（）。

A.关联分析算法
B.聚类算法
C.特征选择算法
D.分类器

51.（）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

A.边界点
B.质心
C.离群点
D.核心点

52.以下哪个不是无监督学习（）。

A.KNN
B.Apriori
C.PCA
D.K-means

53.目前所获取的总数据量的80%以上都是（）数据。。

A.非结构化
B.半结构化
C.文本
D.结构化

54.以下哪个不属于分类算法（）。

A.K均值算法
B.朴素贝叶斯
C.KNN算法
D.决策树

55.Web数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

56.下列演示方式中，不属于传统统计图方式的是（）。

A.柱状图
B.曲线图
C.饼状图
D.网络图

57.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务（）。

A.建模描述
B.寻找模式和规则
C.根据内容检索
D.预测建模

58.以下哪项不属于数据挖掘的内容（）。

A.补充与完善路网属性
B.建立道路拥堵概率与拥堵趋势变化模型
C.多维分析统计用户出行规律
D.高德地图导航躲避拥堵的功能

59.建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务（）。

A.寻找模式和规则
B.建模描述
C.探索性数据分析
D.预测建模

60.无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记。

61.以下哪些方法可用于预测分析（）。

A.周期变化分析
B.回归分析
C.指数平滑
D.其余选项均是

62.特征提取技术并不依赖于特定的领域。

63.大数据的应用注重因果分析而不是相关分析。

64.HDFS中的block默认保存（）份

A.2
B.不确定
C.3
D.1

65.在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。

66.噪声数据处理的主要方法不包括（）。

A.聚类
B.关联分析
C.分箱
D.回归

67.（）反映数据的精细化程度，越细化的数据，价值越高。

A.关联度
B.颗粒度
C.活性
D.规模

68.数据可视化中实现中数据映射指的是（）

A.确定数据到标记和视觉通道的映射
B.概括现实生活中用户遇到的问题
C.视图的选择与用户交互控制的设计
D.从数据源中选取有效数据

69.可视化实现时，根据可视化目标选择相应的图表形式，如果关注3个变量的分布情况，可选择（）。

A.3D区域图
B.柱状直方图
C.折线直方图
D.二维散点图

70.大数据的（），指的是数据有很多不同形式（文本、图像、视频、机器数据），无模式或者模式不明显、且语法或句义不连贯。

A.高速
B.低价值密度
C.多样性
D.大量性

71.（）反映数据的精细化程度，越细化的数据，价值越高。

A.活性
B.规模
C.关联度
D.颗粒度

72.以下哪个属于非关系型数据库（）。

A.MonogoDB
B.SQL
C.Mysql
D.Access

73.以下哪个是聚类分析的典型算法（）。

A.SVM算法
B.KNN算法
C.Apriori算法
D.K均值算法

74.以下哪个是聚类分析的典型算法（）。

A.Apriori算法
B.K均值算法
C.SVM算法
D.KNN算法

75.Apriori算法是无监督学习。

76.用于分类与回归应用的主要算法有)。

A.Apriori算法、HotSpot算法
B.决策树、BP神经网络、贝叶斯
C.RBF神经网络、K均值法、决策树
D.K均值法、SOM神经网络

77.决策树中不包含一下哪种结点（）。

A.根结点
B.外部结点
C.内部结点
D.叶结点

78.以下哪些分类方法可以较好地避免样本的不平衡问题（）。

A.KNN
B.神经网络
C.Bayes
D.SVM

79.SVM是一类监督学习方式对数据进行二元分类的广义线性分类器。

80.BIRCH是一种（）。

A.关联分析算法
B.分类器
C.聚类算法
D.特征选择算法

81.以下哪项不属于数据挖掘的内容（）。

A.建立道路拥堵概率与拥堵趋势变化模型
B.高德地图导航躲避拥堵的功能
C.多维分析统计用户出行规律
D.补充与完善路网属性

82.以下哪个不属于分类算法（）。

A.决策树
B.KNN算法
C.K均值算法
D.朴素贝叶斯

83.可视化实现时，根据可视化目标选择相应的图表形式，如果关注3个变量的分布情况，可选择（）。

A.二维散点图
B.3D区域图
C.柱状直方图
D.折线直方图

84.（）是指对数据源进行清洗、裁剪，并共享多样化数据来加快数据分析。

A.数据抽取
B.数据整合
C.数据加载
D.数据挖掘

85.一般而言，分布式数据库是指物理上分散在不同地点，但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。

86.如果一个对象属于某个簇，那么该对象是基于聚类的离群点。

87.以下哪个选项是目前利用大数据分析技术无法进行有效支持的（）。

A.精确预测股票价格
B.新型病毒的分析判断
C.个人消费习惯分析及预测
D.天气情况预测

88.数据可视化中实现中数据映射指的是（）

A.从数据源中选取有效数据
B.确定数据到标记和视觉通道的映射
C.视图的选择与用户交互控制的设计
D.概括现实生活中用户遇到的问题

89.磁盘IO通常是集群的最主要瓶颈。。

90.（）反映数据的精细化程度，越细化的数据，价值越高。

A.颗粒度
B.规模
C.关联度
D.活性

91.推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求，推荐基于网站最热卖商品、客户所处城市、（），推测客户将来可能的购买行为。

A.客户过去的购买行为和购买记录
B.客户的朋友
C.客户的个人信息
D.客户的兴趣爱好

92.（）分析又称为变异数分析，主要用于两个及两个以上样本均数差别的显著性检验。

A.相关分析
B.方差分析
C.因子分析
D.回归分析

93.分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（）问题。

A.时序预测
B.关联规则挖掘
C.聚类分析
D.分类与回归

94.以下哪个不属于有监督学习技术（）。

A.K-Means
B.朴素贝叶斯
C.CART
D.线性回归

95.下面哪种不属于数据预处理的方法（）。

A.估计遗漏值
B.变量代换
C.离散化
D.聚集

96.离散属性可能具有无限个值。

97.BIRCH是一种（）。

A.分类器
B.特征选择算法
C.关联分析算法
D.聚类算法

98.数据仓库就是数据库。

99.下面（）程序负责HDFS数据存储。

A.Jobtracker
B.SecondaryNameNode
C.Datanode
D.NameNode

100.噪声数据处理的主要方法不包括（）。

A.回归
B.分箱
C.关联分析
D.聚类

标签：11,技术,模式,用户,算法,聚类,数据挖掘,数据
来源： https://blog.csdn.net/robin9409/article/details/122840463