其他分享
首页 > 其他分享> > (十五)top10热门品类之需求回顾以及实现思路分析

(十五)top10热门品类之需求回顾以及实现思路分析

作者:互联网

文章目录


需求回顾:top10热门品类

这个需求是很有意义的,因为这样,就可以让数据分析师、产品经理、公司高层,随时随地都可以看到自己感兴趣的那一批用户,最喜欢的10个品类,从而对自己公司和产品的定位有清晰的了解,并且可以更加深入的了解自己的用户,更好的调整公司战略

二次排序:

如果我们就只是根据某一个字段进行排序,比如点击次数降序排序,那么就不是二次排序;
二次排序,顾名思义,就是说,不只是根据一个字段进行一次排序,可能是要根据多个字段,进行多次排序的
点击、下单和支付次数,依次进行排序,就是二次排序

sortByKey算子,默认情况下,它支持根据int、long等类型来进行排序,但是那样的话,key就只能放一个字段了
所以需要自定义key,作为sortByKey算子的key,自定义key中,封装n个字段,并在key中,自己在指定接口方法中,实现自己的根据多字段的排序算法
然后再使用sortByKey算子进行排序,那么就可以按照我们自己的key,使用多个字段进行排序

本模块中,最最重要和核心的一个Spark技术点

实现思路分析:

1、拿到通过筛选条件的那批session,访问过的所有品类
2、计算出session访问过的所有品类的点击、下单和支付次数,这里可能要跟第一步计算出来的品类进行join
3、自己开发二次排序的key
4、做映射,将品类的点击、下单和支付次数,封装到二次排序key中,作为PairRDD的key
5、使用sortByKey(false),按照自定义key,进行降序二次排序
6、使用take(10)获取,排序后的前10个品类,就是top10热门品类
7、将top10热门品类,以及每个品类的点击、下单和支付次数,写入MySQL数据库
8、本地测试
9、使用Scala来开发二次排序key

标签:key,top10,热门,次数,点击,下单,品类,排序
来源: https://blog.csdn.net/weixin_37850264/article/details/112379151