第五章_Spark核心编程_Rdd_闭包检测&对象序列化
作者:互联网
1. 说明
/*闭包检查*/ /* * 1. Scala的闭包 * 如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包 * 使用场景 : * 在嵌套函数中,内层函数可以 只用外层函数的任意变量 * * 2. Spark的闭包 * 1. 算子之外的代码都是在Driver端执行,算子里面的代码都是在Executor端执行 * 2. 在Spark中算子内的方法中经常用到 算子外的数据,这样就形参了闭包效果 * * 3. Spark的闭包检查 * 1. 当算子内的方法 使用算子外的数据时,会检查所用的数据是否可以被序列化 * * 4. note * 由于Driver 需要将rdd的算子(计算规则)分发到不同的计算节点(Executor)上去执行 * ,如果被分发的计算规则中,使用到了Driver的对象,就需要将该对象序列化后也分发到 * 相应的Executor上去 * * 5. 对象怎样才能序列化? * 1.继承 Serializable * 2.case 修饰类(样例类) * * 6.关于 Serializable 和 Kryo 序列化框架 * Serializable : Java原生序列化框架,可以序列化任何类,但是比较重(序列化后字节数较多), * 不利于网络io * Kryo : Kryo 速度 是 Serializable 的 10 倍,从Spark2.0开始 shuffle数据时,简单的数据类型 * 和数组和字符串类型已经使用Kryo * note : * 1. 如果自定义的类也想使用Kryo,需要在Driver中注册 * 2. 即是使用Kryo序列化,也要继承 Serializable接口 * * */
2.示例
/*Spark 闭包检查示例*/ object foreachTest extends App { val sparkconf: SparkConf = new SparkConf() .setMaster("local") .setAppName("distinctTest") // 替换默认的序列化机制 .set("spark.serializer","org.apache.spark.serializer.KryoSerializer") .registerKryoClasses(Array(classOf[comString])) // 注册需要使用 kryo 序列化的自定义类 val sc: SparkContext = new SparkContext(sparkconf) //初始化一个Rdd val rdd: RDD[String] = sc.makeRDD(Array("hello world", "hello spark", "hive", "java")) //初始化comString 对象 var com = new comString(10, "大王") //检查 参数 com对象是否能够被 序列化 private val rdd1 = rdd.map( (_, com) ) //检查 参数 com.id、com.name 可否被序列化 private val rdd2 = rdd.map( (_, com.id, com.name) ) rdd1.collect().foreach(println(_)) sc.stop() } //1.继承 Serializable class comString(val id: Int, val name: String) extends Serializable case class comStringCase(val id: Int, val name: String)
标签:闭包,val,Rdd,算子,序列化,com,Serializable 来源: https://www.cnblogs.com/bajiaotai/p/16085029.html