A.分步骤实现
1.准备文件
下载小说或长篇新闻稿(从网上随便找一篇新闻)
上传到hdfs上
2.读文件创建RDD
3.分词
4.排除大小写lower(),map()
标点符号re.split(pattern,str),flatMap()
停用词
长度小于2的词filter()
5.统计词频
6.按词频排序
7.输出到文件
8.查看结果
B.一句话实现
标签:文件,re,文件创建,pattern,RDD,实例,词频,操作
来源: https://www.cnblogs.com/gezige/p/16075729.html