05 RDD练习:词频统计,学习课程分数
作者:互联网
一、词频统计:
1.读文本文件生成RDD lines
2.将一行一行的文本分割成单词 words flatmap()
3.全部转换为小写 lower()
4.去掉长度小于3的单词 filter()
5.去掉停用词
6.转换成键值对 map()
7.统计词频 reduceByKey()
答:
(1)文本文件
(2)代码
(3)运行结果
二、学生课程分数 groupByKey() -- 按课程汇总全总学生和分数
1. 分解出字段 map()
2. 生成键值对 map()
3. 按键分组 groupByKey()
4. 输出汇总结果 for i in <>:
答:
(1)项目结构
(2)代码
(3)运行结果
标签:分数,map,05,groupByKey,RDD,课程,词频,键值 来源: https://www.cnblogs.com/ghy-blog/p/14613021.html