首页 > 编程语言> > 数据算法第三章中的问题你面试和工作中遇到过吗？

数据算法第三章中的问题你面试和工作中遇到过吗？

2021-06-11 23:54:42 作者：互联网

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

昨天我写了一篇文章《年轻人你渴望力量吗 | 我读过的一些书推荐》，其中推荐了一本书《数据算法》，这是其中的一个章节，恰巧前几天我在和一个读者交流的过程中，这个题目在他面试字节跳动的时候有被问到过。

这个章节说起来非常简单，就是用Hadoop或者Spark来解决TopN。

这个章节详细的提出了几种方法解决这个问题。我们来看一下，直接上答案。

Java计算TopN

Java中实现Top N的方法最常用的是适用SortedMap<K,V>和TreeMap<K,V>,然后将L的所有元素增加到topN中，如果topN.size()>N,则删除第一个元素或最后一个元素。

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

重写setup和cleanup函数，这里两个函数在每次启动映射器都会执行一次，setup用于获取N的值，cleanup用于发射每个映射器的TOP N到reduce端。

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

Map函数，完成分区的TopN求值

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

Reduce函数，完成所有的TopN求值

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

驱动程序类TopNDriver.java

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

查找Top 10 和 Bottom 10

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

Java API使用的spark函数类

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

在spark中使用setUp()和cleanUp()

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

采用spark实现TopN

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

定义broadcastTopN：final Broadcast<Integer> broadcastTopN = context.broadcast(topN)
获取N的值：final int topN = broadcastTopN.value();

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

当然你还可以使用scala实现，这里就不写了。

这本书大家可以找找PDF，上面的一些思想真的很好，里面的一些场景无论是面试还是真实的业务场景都会遇到。

网上也有同学写了一些本书的读书笔记https://dwz.cn/0GhtboRq，作者是冷梦颜爱楠楠。我后面会把这本书中的精华总结出来，供大家参考。

——END——

扫下面二维码可以加群主微信：

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

文章不错？点个【在看】吧！ ????

标签：第三章,TopN,唯一,面试,算法,topN,spark,Spark,输入
来源： https://blog.51cto.com/u_14222592/2898138