首页 > TAG信息列表 > spark-streaming

java-Spark Streaming / Spark是否像main()方法中的while循环一样工作?

这是一个非常简单的问题: 我通过以下方式使用Spark Streaming: private static int count=0; public static void main(String[] args) throws Exception { if (args.length < 2) { System.err.println("Usage: sparkstreaminggetjson <hostname> <port>");

java-Spark Streaming正常关闭

我看到有一个选项可以在两个地方配置正常关机: >在定义spark conf时: “spark.streaming.stopGracefullyOnShutdown”, “true”. >停止流上下文时: JavaStreamingContext scc; scc.stop(true,true) 两种选择之间有什么区别? 谢谢解决方法:第一种方式 sparkConf.set(“spark.strea

java-通过apache spark将行作为列表进行分组

我有一个特殊的用例,其中我为同一位客户有多行,每行对象看起来像: root -c1: BigInt -c2: String -c3: Double -c4: Double -c5: Map[String, Int] 现在,我按列c1进行分组,并为同一客户收集所有行作为列表,例如: c1, [Row1, Row3, Row4] c2, [Row2, Row5] 我试图这样做 data

java-如何在不使用collect函数的情况下有效地将rdd转换为列表

我们知道,如果需要将RDD转换为列表,则应使用collect().但是此功能给驱动程序带来了很大的压力(因为它将所有数据从不同的执行程序带到驱动程序),从而导致性能下降或恶化(整个应用程序可能会失败). 是否有其他方法可以在不使用collect()或collectAsMap()等的情况下将RDD转换为任何Ja

如何在同一个Spark项目中同时使用Scala和Python?

是否可以将Spark RDD传递给Python? 因为我需要一个python库来对我的数据进行一些计算,但我的主要Spark项目是基于Scala的. 有没有办法混合它们或让python访问相同的火花上下文?解决方法:您确实可以使用Scala和Spark以及常规Python脚本来管理python脚本. test.py #!/usr/bin/python

java – 使用spark streaming从数据库中读取流

我想使用spark streaming来读取来自RDBMS数据库的数据,比如mysql. 但我不知道如何使用JavaStreamingContext来做到这一点 JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.milliseconds(500)); DataFrame df = jssc. ?? 我在互联网上搜索,但我没有找到任

java – 我们可以将Spark流用于基于时间的事件

我有如下要求 >有多个设备根据设备配置生成数据.例如,有两个设备按照自己的间隔生成数据,假设d1每15分钟生成一次,d2每30分钟生成一次 >所有这些数据都将发送给Kafka>我需要使用数据并为每个设备执行计算,该计算基于当前小时生成的值和下一小时生成的第一个值.例如,如果d1从12:00 A

如何将List对象转换为JavaDStream Spark?

我有List对象: List<Tuple2<Tuple3<String, Long, Object>, Tuple2<Long, Object[]>>> rddQueue = Arrays.asList(tupleList); 如何将其转换为JavaDStream Spark? 谢谢提前!解决方法:你可以使用JavaStreamingContext和Queue< T>来做到这一点: List<Tuple2<Tuple3

java – 如何获取Spark流中的当前批处理时间戳

如何在Spark流中获取当前批处理时间戳(DStream)? 我有一个火花流应用程序,输入数据将进行多次转换. 我需要在执行期间使用当前时间戳来验证输入数据中的时间戳. 如果我与当前时间进行比较,那么时间戳可能与每个RDD转换执行不同. 有没有办法获得时间戳,特定的Spark流微批处理已经开始

java – 如何只编译Spark Core和Spark Streaming(以便我可以获得Streaming的单元测试实用程序)?

我正在开发一个Spark Streaming应用程序并尝试编写我的第一个单元测试.我已经将Java用于此应用程序,我还需要使用Java(和JUnit)来编写单元测试. 我找不到任何专注于Spark Streaming单元测试的文档,我只能找到Spark Streaming源代码中基于Java的单元测试: https://github.com/apache/

java – Spark驱动程序内存和执行程序内存

我是Spark的初学者,我正在运行我的应用程序从文本字段中读取14KB数据,执行一些转换和操作(收集,收集地图)并将数据保存到数据库 我在我的macbook中本地运行它有16G内存,有8个逻辑内核. Java Max堆设置为12G. 这是我用来运行应用程序的命令. bin / spark-submit –class com.myapp.a