编程语言
首页 > 编程语言> > 第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)

第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)

作者:互联网

1.说明

  /*
  * RDD 任务切分中间分为:Application、Job、Stage 和 Task
      Application:初始化一个SparkContext即生成一个Application;
            new SparkConf().setMaster("local").setAppName("distinctTest")
      Job:一个Action算子就会生成一个Job
            每触发一个Action算子,就会提交一个job
      Stage:Stage等于宽依赖(ShuffleDependency)的个数加1;
            将每个job,根据是否Shuffle 拆分成不同的Stage
      Task:一个Stage阶段中,最后一个RDD的分区个数就是Task的个数。

      note : Application->Job->Stage->Task 每一层都是 1 对 n 的关系。
  *
  * */

2.示例

  object TaskTest extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt")


    private val rdd1: RDD[String] = rdd.flatMap(_.split(" "))


    private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e)

    private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size))

    println("****rdd*********************")
    println(rdd.toDebugString)

    println("****rdd1*********************")
    println(rdd1.toDebugString)

    println("*****rdd2********************")
    println(rdd2.toDebugString)

    println("*****rdd3********************")
    println(rdd3.toDebugString)



    rdd3.collect().foreach(println(_))

    sc.stop()
  }

 

标签:Task,String,val,RDD,Application,Job,println,Stage
来源: https://www.cnblogs.com/bajiaotai/p/16089986.html