如何在Apache Spark中执行Sort JavaPairRDD
作者:互联网
我正在从日志文件中获取IP地址并对其进行计数,现在我想根据其计数值对该JavaPairRDD进行排序.
您可以参考以下代码.
JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer v1, Integer v2) throws Exception {
// TODO Auto-generated method stub
return v1 + v2;
}
});
上面的JavaPairRDD将返回IP计数,现在我要对其进行排序.
例如输出将是这样
(172.16.0.0,125)
(192.168.0.0,12)
(127.168.0.44,92)
第二个值是该特定ip的计数.
解决方法:
Spark不支持基于值的排序.作为解决方法,您可以交换键和值对,然后根据键进行排序.
检查:https://issues.apache.org/jira/browse/SPARK-3655
使用以下代码交换键和值:
JavaPairRDD<Integer, String> swapped = counts.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
@Override
public Tuple2<Integer, String> call(Tuple2<String, Integer> item) throws Exception {
return item.swap();
}
});
标签:apache-spark,java 来源: https://codeday.me/bug/20191118/2032166.html