系统相关
首页 > 系统相关> > java-Spark(Kafka)流内存问题

java-Spark(Kafka)流内存问题

作者:互联网

我正在测试处理来自Kafka的消息的第一个Spark Streaming流水线.但是,经过几次测试运行后,我收到以下错误消息
没有足够的内存,Java运行时环境无法继续.

我的测试数据确实很小,因此应该不会发生.在研究了该过程之后,我意识到以前提交的Spark作业可能没有被完全删除? enter image description here

我通常会提交以下工作,而我正在使用Spark 2.2.1
/usr/local/spark / bin / spark-submit –packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2〜/ script / to / spark_streaming.py

并使用Ctrl C停止它

脚本的最后几行如下所示:

ssc.start()
ssc.awaitTermination()

更新资料

在更改提交Spark Streaming作业的方式(如下所示的命令)之后,我仍然遇到相同的问题,即杀死该作业后,内存不会被释放.我仅针对这4个EC2节点启动了Hadoop和Spark.

/bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 --py-files ~/config.py --master spark://<master_IP>:7077 --deploy-mode client  ~/spark_kafka.py

解决方法:

当您按Ctrl-C组合键时,仅提交者进程被中断,作业本身继续运行.最终,系统内存不足,因此无法启动新的JVM.

此外,即使您重新启动群集,所有先前运行的作业也会再次重新启动.

读取how to stop a running Spark application properly.

标签:apache-spark,apache-kafka,out-of-memory,java
来源: https://codeday.me/bug/20191109/2011247.html