首页 > 其他分享> > 大数据处理期末复习

大数据处理期末复习

2022-06-08 13:02:02 作者：互联网

1. 分析题
2. 程序填空
- （1）创建RDD的方法：
- （2）RDD的转换与操作

1. 分析题

（1）常见大数据计算模式及其解决的主要问题。

（2）spark streaming的运行原理。

简介：

运行原理：
1>将输入数据按照时间片(batch size)分成一段一段的数据，得到批数据(batch data)，每一段数据都转换成Spark中的RDD。然后将spark streaming中对DStream的转换(Transformation)操作变为针对Spark中的RDD的转换(Transformation)操作。
2>将RDD经过操作变成中间结果保存在内存中。

（3）spark能不能取代Hadoop，理由是什么。

不能。
理由：
（省略：根据现有的发展，目前spark还不能取代Hadoop。spark只是分布式计算平台，而Hadoop已经是分布式计算、存储、管理的生态系统。）
Hadoop包含三个组件yarn，hdfs，MapReduce，分别对应解决三个方面的问题，资源调度(yarn)，分布式存储(hdfs)，分布式计算(mapreudce)，而spark只解决了分布式计算方面的问题。跟MapReduce需要频繁写磁盘不同，spark重复利用内存，大大提高了计算效率，在分布式计算方面spark大有取代MapReduce之势，但spark本身不提供分布式数据的存储，在资源调度和分布式存储方面spark还无法撼动Hadoop，所以spark不能取代Hadoop。