其他分享
首页 > 其他分享> > pyspark dataframe,groupby和计算列的方差

pyspark dataframe,groupby和计算列的方差

作者:互联网

我想对pyspark数据框进行分组并计算特定列的方差.一般而言,这很容易,可以像这样完成

from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()

但是对于方差,在功能子模块中似乎没有任何聚合函数(我也想知道为什么,因为这是很常见的操作)

解决方法:

您可以做的是将数据框转换为RDD对象,然后将提供的方差函数用于RDD.

df1 = df.groupby('country').agg(func.avg('clicks').alias('avg_clicks'))
rdd = df1.rdd
rdd.variance()

标签:pyspark-sql,pyspark,spark-dataframe,python
来源: https://codeday.me/bug/20191028/1948972.html