apache-spark-dataset

首页 > TAG信息列表 > apache-spark-dataset

java-使用Spark Streaming从Kafka读取数据时lz4异常

我试图使用火花流式API从kafka读取json数据,当我这样做时,它将引发java.lang.NoSuchMethodError：net.jpountz.lz4.LZ4BlockInputStream.init异常.堆栈跟踪为- java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V at org.apache.sp

在Java Spark中迭代大型数据集的最快,有效方法

我正在使用以下方法将Spark数据集转换为哈希映射列表, 我的最终目标是建立json对象列表或hashmaps列表我在320万行上运行此代码 List<HashMap> finalJsonMap = new ArrayList<HashMap>(); srcData.foreachPartition(new ForeachPartitionFunction<Row>() { public voi

在Spark数据集中使用custome UDF withColumn; java.lang.String无法强制转换为org.apache.spark.sql.Row

我有一个包含许多字段的JSON文件.我在java中使用spark的Dataset读取文件. > Spark版本2.2.0 > java jdk 1.8.0_121 下面是代码. SparkSession spark = SparkSession .builder() .appName("Java Spark SQL basic example") .config("spa

如何使用java api在Apache Spark Dataset中使用desc进行排序？

我正在使用spark会话读取文件,然后拆分单词并计算单词的迭代次数.我需要以desc顺序显示数据 SparkSession sparkSession = SparkSession .builder() .appName("Java Spark SQL basic example") .config("spark.master", "local")

使用Java在Apache Spark中复制数据集中的一行n次

我试图从数据集中复制一行n次并从中创建一个新的数据集.但是,在复制时我需要为每个复制更改列的值,因为它最终会在最终存储时作为主键. 以下是来自SO post：Replicate Spark Row N-times的Scala代码 import org.apache.spark.sql.functions._ val result = singleRowDF .withColu