其他分享
首页 > 其他分享> > 5.RDD操作综合实例

5.RDD操作综合实例

作者:互联网

一、词频统计

A. 分步骤实现






再分词一遍清除去标点后产生的新的无用数据


将停用词文件分词储存到变量中
筛选出不在停用表中的词
筛选前后对比

筛选前后对比(因为许多小于2的词在停用表中已经被筛选过了一次了)

将key相同的values合并起来,做词频的统计





B. 一句话实现:文件入文件出

通过代码结合实现一句话完成词频排序并保存文件


查看文件(由于没有去除停用表内的词,所以结果与前面不同)

二、求Top值

标签:文件,re,RDD,实例,词频,操作,排序,分词
来源: https://www.cnblogs.com/Yeav/p/16073702.html