编程语言
首页 > 编程语言> > 如何在Apache Spark中执行Sort JavaPairRDD

如何在Apache Spark中执行Sort JavaPairRDD

作者:互联网

我正在从日志文件中获取IP地址并对其进行计数,现在我想根据其计数值对该JavaPairRDD进行排序.
您可以参考以下代码.

JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {

        @Override
        public Integer call(Integer v1, Integer v2) throws Exception {
            // TODO Auto-generated method stub
            return v1 + v2;
        }
    });

上面的JavaPairRDD将返回IP计数,现在我要对其进行排序.
例如输出将是这样

(172.16.0.0,125)
(192.168.0.0,12)
(127.168.0.44,92)

第二个值是该特定ip的计数.

解决方法:

Spark不支持基于值的排序.作为解决方法,您可以交换键和值对,然后根据键进行排序.

检查:https://issues.apache.org/jira/browse/SPARK-3655

使用以下代码交换键和值:

JavaPairRDD<Integer, String> swapped = counts.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
           @Override
           public Tuple2<Integer, String> call(Tuple2<String, Integer> item) throws Exception {
               return item.swap();
           }

        });

标签:apache-spark,java
来源: https://codeday.me/bug/20191118/2032166.html