编程语言
首页 > 编程语言> > python-DataError:没有使用均值聚合函数但不求和的数值类型?

python-DataError:没有使用均值聚合函数但不求和的数值类型?

作者:互联网

我想知道是否有人可以使用agg()帮助解释以下行为

import numpy as np
import pandas as pd
import string

初始化数据框

df = pd.DataFrame(data=[list(string.ascii_lowercase)[0:5]*2,list(range(1,11)),list(range(11,21))]).T
df.columns = columns=['g','c1','c2']

df.sort_values(['g']).head(5)

g   c1  c2
0   a   1   11
5   a   6   16
1   b   2   12
6   b   7   17
2   c   3   13

例如,我在对c1和c2求和并求平均值时,按g进行分组

没有数据错误的情况:

f = { 'c1' : lambda g: df.loc[g.index].c2.sum() + g.sum(), 'c2' : lambda g: (df.loc[g.index].c1.sum() + g.sum())/(g.count()+df.loc[g.index].c1.count())} 
df = df.groupby('g',as_index=False).agg(f)

数据类型错误:

rnm_cols = dict(sum='Sum', mean='Mean') #, std='Std')
df = df.set_index(['g']).stack().groupby('g').agg(rnm_cols.keys()).rename(columns=rnm_cols)

我得到-> DataError:没有要聚合的数字类型

我知道如果使用以下方法初始化数据框,则可以避免此问题:

df[['c1','c2']] = df[['c1','c2']].apply(lambda x: pd.to_numeric(x, errors='coerce'))

However I’m trying to understand why aggregating with the mean
function provides such errors ?

解决方法:

这是由于GroupBy对象处理不同聚合方法的方式.实际上,总和和均值的处理方式有所不同(有关更多详细信息,请参见下文).

但最重要的是,这意味着仅适用于数据框中不存在的数字类型:

>>> df.dtypes
g     object
c1    object
c2    object
dtype: object

通过应用pd.to_numeric,您可以将它们转换为数字类型,并且agg可以工作.

但是,让我们仔细看看:

GroupBy.mean

此函数调用将分派到self._cython_agg_general,该代码将检查数字类型,如果没有找到任何数字类型(在您的示例中就是这种情况),它将引发DataError.尽管对self._cython_agg_general的调用包装在try / except中,否则它只是重新引发一个GroupByError,而DataError则继承自GroupByError.因此例外.

总和

该功能的定义方式不同,即here(通过this function). wrapper function类似地分派给try / except中的self._cython_agg_general,但是它没有为GroupByErrors添加特定的子句(不知道为什么;也许这对开发人员来说是个好问题,所以他们可以统一GroupBy对象的行为).因为self._cython_agg_general再次引发DataError,它将进入except Exception子句,并回落到self.aggregate.从这里可以追溯到数十个其他函数调用,但最后它将仅添加该系列的单个项目. (它们存储为对象,但是添加到Python中没有问题,因为它们实际上是整数).

摘要

因此,这归结为两个聚合函数处理异常的不同方式.意思是对DataError重新加注,但总和没有.对我来说,“为什么”仍然是一个悬而未决的问题.

也可以看看

> Inconsistencies in groupby aggregation with non-numeric types
> SeriesGroupby.cumsum raises on object dtype

标签:pandas-groupby,pandas,python
来源: https://codeday.me/bug/20191025/1926844.html