java-Spark(Kafka)流内存问题
作者:互联网
我正在测试处理来自Kafka的消息的第一个Spark Streaming流水线.但是,经过几次测试运行后,我收到以下错误消息
没有足够的内存,Java运行时环境无法继续.
我的测试数据确实很小,因此应该不会发生.在研究了该过程之后,我意识到以前提交的Spark作业可能没有被完全删除?
我通常会提交以下工作,而我正在使用Spark 2.2.1
/usr/local/spark / bin / spark-submit –packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2〜/ script / to / spark_streaming.py
并使用Ctrl C停止它
脚本的最后几行如下所示:
ssc.start()
ssc.awaitTermination()
更新资料
在更改提交Spark Streaming作业的方式(如下所示的命令)之后,我仍然遇到相同的问题,即杀死该作业后,内存不会被释放.我仅针对这4个EC2节点启动了Hadoop和Spark.
/bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 --py-files ~/config.py --master spark://<master_IP>:7077 --deploy-mode client ~/spark_kafka.py
解决方法:
当您按Ctrl-C组合键时,仅提交者进程被中断,作业本身继续运行.最终,系统内存不足,因此无法启动新的JVM.
此外,即使您重新启动群集,所有先前运行的作业也会再次重新启动.
读取how to stop a running Spark application properly.
标签:apache-spark,apache-kafka,out-of-memory,java 来源: https://codeday.me/bug/20191109/2011247.html