其他分享
首页 > 其他分享> > Spark map、mapPartitions、mapPartitionsWithIndex算子的区别和使用

Spark map、mapPartitions、mapPartitionsWithIndex算子的区别和使用

作者:互联网

map

函数签名

在这里插入图片描述

代码示例

val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[*]")
val sc = new SparkContext(conf)
val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4, 5),2)
val newRDD: RDD[Int] = rdd.map(_*2)
newRDD.collect().foreach(println)
sc.stop()

mapPartitions

函数签名

在这里插入图片描述

代码示例

val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[*]")
val sc = new SparkContext(conf)
val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)
val newRDD: RDD[Int] = rdd.mapPartitions(datas => {
  datas.map(_ * 2)
})
newRDD.foreach(println)
sc.stop()

mapPartitionsWithIndex

函数签名

在这里插入图片描述

代码示例

val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[*]")
val sc = new SparkContext(conf)
val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8), 4)
// 第二个分区元素*2,其他分区元素不变
val newRDD: RDD[Int] = rdd.mapPartitionsWithIndex {
  (index, datas) => {
    index match {
      case 1 => datas.map(_ * 2)
      case _ => datas
    }
  }
}
newRDD.collect().foreach(println)
sc.stop()

三者的区别

使用场景

标签:map,mapPartitions,val,分区,mapPartitionsWithIndex,RDD,sc
来源: https://blog.csdn.net/FlatTiger/article/details/115041713