首页 > TAG信息列表 > MapPartitionsRDD
transformation算子基本原理二
前言 mapValues与map算子、flatMapValues与flatMap算子的原理基本上相同。为什么没有把这两个算子放在transformation基本原理一中而单拎出来,是因为"transformation基本原理一"中的算子都属于RDD类,而mapValues、flatMapValues属于PairRDDFunctions类,作用在元Spark中的checkpoint的简单介绍
为什么要用checkpoint呢? checkpoint的意思就是建立检查点,类似于快照,比如,在spark计算中,计算流程DAG很长,要是将整个DAG计算完成并得出结果,需要很长时间,在这等待时间中突然中间数据丢失,spark就会根据RDD的依赖关系从头到尾开始计算一遍,这样会很费性能的,怎么解决呢?这就需要用到进阶RDD
import Utils.SparkUtils import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object Demo { def main(args: Array[String]): Unit = { val sc: SparkContext =SparkUtils.getSparkContext() val rdd: RDD[(String, Int)] =sc.textFile("