首页 > TAG信息列表 > makeRDD
Spark创建RDD的四种方式
在Spark中创建RDD的创建方式可以分为四种: ps:本文代码基于spark on zeppelin实现 1、从集合(内存)中创建RDD 从集合中创建RDD,Spark主要提供了两个方法:parallelize和makeRDD // 使用parallelize方法 val rdd1 = sc.parallelize(List(1,2,3,4)) //使用makeRDD方法 val rdd2=sc.makSpark makeRDD方法本地Task的默认分区数
注意setMaster("local")和setMaster("local[*])的分区数是不一样的。*会匹配所有的cpu核数。 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Seq_Partition_04 { def main(args: Array[String]): Unit = { val sparkConfday30-RDD 转换算子(7)
intersection 对源 RDD 和参数 RDD 求交集后返回一个新的 RDD val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4)) val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6)) val dataRDD = dataRDD1.intersection(dataRDD2) union 对源 RDD 和参数 RDD 求并集后返回一个新的 RDDSpark算子:RDD基本转换transform操作–union、intersection、subtract
Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.4.5.online-JD2.4.5.16-202012212053 /_/ Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VMRDD转换算子--key-value
l Key - Value类型 1) partitionBy 函数签名 def partitionBy(partitioner: Partitioner): RDD[(K, V)] 函数说明 将数据按照指定Partitioner重新进行分区。Spark默认的分区器是HashPartitioner val rdd: RDD[(Int, String)] = sc.makeRDD(Array((1,"aaa"),(Action算子练习
reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24 scala> rdd1.reduce(_+_) res50: Int = 55 scala> vsparkRdd driver和excuter
//1 从内存中创建makeRdd,底层实现就是parallelize val rdd=sc.makeRDD(Array(1,2,"df",55)) //2 从中创建parallelize val paraRdd=sc.parallelize(Array(1,2,3,54,5)) //3 从外部存储中创建 // 默认情况下,可以读取项目路劲,也可以读取其他路劲如hdfsSpark RDD Action操作
reducedef reduce(f: (T, T) => T): T通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的1234567891011scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24scala> rdd1.reduce(_+