首页 > TAG信息列表 > Dspark

spark集群的配置文件

spark.env.sh #指定yarn的配置文件地址 YARN_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop #指定JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_261 #指定Spark Master 地址 export SPARK_MASTER_HOST=hadoop102 export SPARK_MASTER_POST=7077 #指定spark的运行参

[DB] Spark--Spark Core

生态 Spark Core:最重要,其中最重要的是RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib:机器学习算法 Spark Graphx:图计算 特点 针对大规模数据处理的快速通用引擎 基于内存计算 速度快,易用,兼容性强 体系架构 主节点:Cluster Manager(Standalone时叫Master) 从节点:Wor

Spark Yarn部署时注意点

问题 为防止因为虚拟机内存过少,进程被杀死,需要关闭yarn的内存检测 yarn-site.xml <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</val