spark内核与源码
作者:互联网
spark内核与源码
一、环境准备(Yarn集群)
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
spark-submit
--class org.apache.spark.examples.SparkPi
--master local[2]
../examples/jars/spark-examples_2.12-3.0.0.jar
10
二、组件通信
Driver => Executor
三、应用程序的执行
1、RDD依赖
2、阶段划分
3、任务切分
4、任务的调度
5、任务执行
四、Shuffle
1、Shuffle 的原理和执行过程
- shuffleWriterProcessor(写处理器)
- ShuffleManager: Hash(早期) & Sort(当前)
2、Shuffle 写磁盘
3、Shuffle 读取磁盘
五、内存的管理
1、内存的分类
2、内存的配置
标签:Shuffle,--,examples,源码,内核,磁盘,spark,内存 来源: https://blog.csdn.net/Smiling_lzy/article/details/122025584