首页 > 其他分享> > Spack 内置函数

Spack 内置函数

2022-01-25 10:36:41 作者：互联网

1、Map函数：通过函数传递源的每个元素，并形成新的分布式数据集。

%spark
#并行化集合生成RDD
var data = sc.parallelize(List(10,20,30))
%输出结果
data.collect
%应用map函数并传递表达式
var mapFunc = data.map(x => x+10)
mapFunc.collect

输出：Array[Int] = Array(20, 30, 40)

2、Filter函数：返回一个新数据集，该数据集是通过选择函数返回true的源元素而形成的。因此，它仅检索满足给定条件的元素。

#过滤掉35
%spark
var data = sc.parallelize(List(10,20,35,40))
var filterFunc = data.filter(x => x!=35)
filterFunc.collect

输出：Array[Int] = Array(10, 20, 40)

3、count函数：返回数据集中存在的元素个数

%spark
var data = sc.parallelize(List(1,2,3,4,5))
var countFunc = data.count()

输出：5

4、Distinct函数：返回提供的数据集中的不同元素。

%spark
var data = sc.parallelize(List(10,10,20,30,40))
var distFunc = data.distinct()
distFunc.collect

5、Union函数：返回一个新数据集，其中包含不同数据集中存在的元素组合。

%spark
var data1 = sc.parallelize(List(10,20))
var data2 = sc.parallelize(List(30,40))
var unionFunc = data1.union(data2)
unionFunc.collect

输出：Array[Int] = Array(10, 20, 30, 40)

6、Intersection函数:返回一个新数据集，其中包含不同数据集中存在的元素的交集

%spark
var data1 = sc.parallelize(List(10,20,30))
var data2 = sc.parallelize(List(30,40))
var IntersectionFunc = data1.intersection(data2)
IntersectionFunc.collect

输出：Array(30)

7、Cartesian函数：生成两个数据集的笛卡尔积，并返回所有可能的对组合。一个数据集的每个元素与另一个数据集的每个元素配对。

%spark
var data1 = sc.parallelize(List(1,2,3))
var data2 = sc.parallelize(List(3,4,5))
var cartesianfunc = data1.cartesian(data2)
cartesianfunc.collect

输出：Array[(Int, Int)] = Array((1,3), (1,4), (1,5), (2,3), (3,3), (2,4), (2,5), (3,4), (3,5))

8、sortByKey函数：维护元素的顺序。它接收键值对(K，V)作为输入，按升序或降序对元素进行排序，并按顺序生成数据集。

%spark
var data = sc.parallelize(Seq(("C",3),("B",2),("D",4),("A",1),("E",5)))
data.collect
#sortByKey默认传入的参数是true，升序的
var sortFun = data.sortByKey(false)
sortFun.collect

输出：Array[(String, Int)] = Array((E,5), (D,4), (C,3), (B,2), (A,1))

9、groupByKey函数：是一种聚合操作，输入（k，value），根据k值进行分类

%spark
var data = sc.parallelize(Seq(("C",3),("C",3),("C",2),("D",4),("A",1),("E",5)))
data.collect
var groupFunc = data.groupByKey()
groupFunc.collect


输出：Array[(String, Iterable[Int])] = Array((D,CompactBuffer(4)), (A,CompactBuffer(1)), (E,CompactBuffer(5)), (C,CompactBuffer(3, 3, 2)))

10、reduceByKey函数：类似于的groupByKey聚合函数，但groupByKey中包含大量shuffle操作，而reduceByKey则能提升性能，因为它不必发送pairRDD中的所有元素，会使用本地合并器先在本地完成基本的聚合操作(先在本地根据key值合并value)，然后发送结果元素。

%spark
var data = sc.parallelize(Seq(("C",3),("C",3),("C",2),("D",4),("A",1),("E",5)))
#需要传入表达式
var reduceFunc = data.reduceByKey((value,x) => (value + x))
reduceFunc.collect

输出：Array[(String, Int)] = Array((D,4), (A,1), (C,8), (E,5))

11、cogroup函数：对不同的数据集执行，比方说，(K，V)和(K，W)并返回(K，(Iterable，Iterable))元组的数据集。此操作也称为groupWith

%spark
var data1 = sc.parallelize(Seq(("A",1),("B",2),("C",3)))
var data2 = sc.parallelize(Seq(("B",4),("C",5),("D",6)))
var cogroupFun = data1.cogroup(data2)
cogroupFun.collect


输出：Array[(String, (Iterable[Int], Iterable[Int]))] = Array((B,(CompactBuffer(2),CompactBuffer(4))), (D,(CompactBuffer(),CompactBuffer(6))), (A,(CompactBuffer(1),CompactBuffer())), (C,(CompactBuffer(3),CompactBuffer(5))))

12、First函数：始终返回数据集的第一个元素。它类似于take(1)。

%spark
var data = sc.parallelize(List(10,20,30))
data.first()

输出：Int = 10

13、take函数：它接收一个整数值(比方说，n)作为参数，并返回数据集的前n个元素的数组。

%spark
var data = sc.parallelize(List(10,20,30))
data.take(2)

输出：Array[Int] = Array(10, 20)

标签：10,内置,函数,parallelize,Spack,sc,var,Array,data
来源： https://www.cnblogs.com/Ao0216/p/15840420.html