4.RDD操作
作者:互联网
一、 RDD创建
- 1.从本地文件系统中加载数据创建RDD
- 从HDFS加载数据创建RDD
启动hdfs
上传文件
查看文件
加载
停止hdfs
- 通过并行集合(列表)创建RDD
输入列表
字符串
numpy生成数组
二、 RDD操作
转换操作
- filter(func)
lambda函数
显式定义函数
- map(func)
lambda函数
字符串分词
显式定义函数
数字加100
lambda函数
显式函数
字符串加固定前缀
lambda函数
显式函数
- flatMap(func)
- 分词
2.单词映射成键值对
- reduceByKey()
- 统计词频,累加
2.乘法规则
- groupByKey()
- 单词分组
2.查看分组的内容
3.分组之后做累加 map
- sortByKey()
- 词频统计按单词排序
- sortBy()
- 词频统计按单词排序
.sortBy(lambda a:a[0]).collect()
.sortByKey().collect()
上面两条语句是一样的效果
.sortBy(lambda a:a[0],False).collect()
.sortByKey(False).collect()
上面两条语句是一样的效果
sortBy()函数里面按照lambda()函数中的指定字符进行排序,sortBy()第二个参数默认为True,即以该字符为首进行降序排序,为False即为以该字符升序排序
- RDD写入文本文件
- 写入本地文件系统,并查看结果
- 写入分布式文件系统,并查看结果
先进行操作一个数据,然后对其进行sortBy(函数,是否降序,设置数据块大小(默认10))
然后通过getNumPartitions()获得块数大小
标签:函数,collect,RDD,sortBy,显式,操作,lambda 来源: https://www.cnblogs.com/tanhaven/p/16071603.html