编程语言
首页 > 编程语言> > python – map_partitions在做什么?

python – map_partitions在做什么?

作者:互联网

dask API说,map_partition可用于“在每个DataFrame分区上应用Python函数”.根据这个描述并根据“map”的通常行为,我希望map_partitions的返回值是(类似的)一个长度等于分区数的列表.列表的每个元素应该是函数调用的返回值之一.

但是,关于以下代码,我不确定,返回值取决于:

#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)

#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
    print('function called\n')
    return VAL

#check result
out = ddf.map_partitions(helper).compute()
print(len(out))

> VAL = pd.Series({‘A’:1})导致4个函数调用(可能一个用于推断dtype,3个用于分区)和一个输出len == 3且类型为pd.Series.
> pd.DataFrame({‘A’:[1]})产生相同的数字,但结果类型为pd.DataFrame.
> VAL = None导致TypeError …为什么?难道不能使用map_partitions来做某事而不是返回一些东西吗?
> VAL = 1只导致2个函数调用. map_partitions的结果是整数1.

因此,我想问一些问题:

> map_partitions的返回值是如何确定的?
>除了分区数量之外,还有什么影响函数调用的数量/每个分区要调用一次函数的标准是什么?
>函数的返回值应该是什么,只有“做”某事,即程序?
>如何设计一个返回任意对象的函数?

解决方法:

Dask DataFrame.map_partitions函数根据映射函数的输出类型返回新的Dask Dataframe或Series.有关详细说明,请参阅API documentation.

> map_partitions的返回值是如何确定的?

请参阅上面提到的API文档.
>除了分区数量之外,还有什么影响函数调用的数量/每个分区要调用一次函数的标准是什么?

你是正确的,我们立刻调用它来猜测输出的dtypes /列.您可以通过直接指定meta =关键字来避免这种情况.除此之外,每个分区调用一次函数.
>函数的返回值应该是什么,只有“做”某事,即程序?

您总是可以返回一个空数据帧.您可能还需要考虑将数据帧转换为dask.delayed对象序列,这些对象通常更常用于临时计算.
>如何设计一个返回任意对象的函数?

如果您的函数没有返回系列/数据帧,那么我建议您使用DataFrame.to_delayed方法将数据帧转换为dask.delayed对象的序列.

标签:dask,python,pandas
来源: https://codeday.me/bug/20191008/1871337.html