其他分享
首页 > 其他分享> > spark submit 常用设置

spark submit 常用设置

作者:互联网

Example:

./bin/spark-submit \
--[your class] \
--master yarn \
--deploy-mode cluster \
--num-exectors 17
--conf spark.yarn.executor.memoryOverhead=4096 \
--executor-memory 35G \  //Amount of memory to use per executor process 
--conf spark.yarn.driver.memoryOverhead=4096 \
--driver-memory 35G \   //Amount of memory to be used for the driver process
--executor-cores 5
--driver-cores 5 \     //number of cores to use for the driver process 
--conf spark.default.parallelism=170
 /path/to/examples.jar  

上图所示的作业,直接使用了 Spark 官方的 example 包,所以不需要自己上传 jar 包。

我一般:

 spark-submit --master yarn-client --driver-memory 10g –-num-executors 25 --executor-memory 6g --executor-cores 4 --conf spark.yarn.driver.memoryOverhead=4096  path_walk_learning.py >log202102100938.txt

 

参数列表如下所示:  
--class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 4g --num-executors 2 --executor-memory 2g --executor-cores 2 /opt/apps/spark-1.6.0-bin-hadoop2.6/lib/spark-examples*.jar 10

参数说明如下所示:

 
参数参考值说明
class org.apache.spark.examples.SparkPi 作业的主类。
master yarn 因为 E-MapReduce 使用 yarn 的模式,所以这里只能是 yarn 模式。
yarn-client 等同于 –-master yarn —deploy-mode client, 此时不需要指定deploy-mode。
yarn-cluster 等同于 –-master yarn —deploy-mode cluster, 此时不需要指定deploy-mode。
deploy-mode client client 模式表示作业的 AM 会放在 Master 节点上运行。要注意的是,如果设置这个参数,那么需要同时指定上面 master 为 yarn。
cluster cluster 模式表示 AM 会随机的在 worker 节点中的任意一台上启动运行。要注意的是,如果设置这个参数,那么需要同时指定上面 master 为yarn。
driver-memory 4g driver 使用的内存,不可超过单机的总内存。
num-executors 2 创建多少个 executor。
executor-memory 2g 各个 executor 使用的最大内存,不可超过单机的最大可使用内存。
executor-cores 2 各个 executor 使用的并发线程数目,即每个 executor 最大可并发执行的 Task 数目。

资源计算

在不同模式、不同的设置下运行时,作业使用的资源情况如下表所示:

资源使用的优化

配置建议

标签:常用,--,memory,driver,yarn,submit,executor,cores,spark
来源: https://www.cnblogs.com/bonelee/p/14395030.html