A.分步骤实现
1.准备文件
上传到hdfs上
2.读文件创建RDD
3.分词
4.排除大小写lower(),map()
标点符号re.split(pattern,str),flatMap(),
先导入re然后用re.split分词
长度小于2的词filter()
5.统计词频
6.按词频排序
7.输出到文件
8.查看结果
B.一句话实现
标签:re,文件创建,RDD,实例,词频,split,操作,分词
来源: https://www.cnblogs.com/hetianming/p/16076178.html