编程语言
首页 > 编程语言> > 如何使用Python pandas“分组”多个变量,消除重复

如何使用Python pandas“分组”多个变量,消除重复

作者:互联网

我有一个包含这种数据的输入文件:

**> Due big size of input file, i need to take only unique pairs –

userID-locationID (some kind of preprocessing)**

userID locationID
     1       loc1 
     1       loc2 
     1       loc3 
     2       loc1 
     3       loc4 
     3       loc3 
     3       loc1

我必须找到每个位置检查了多少个不同的用户,并获得带有值的新列.我已经试过了,但这不是我需要的.

DataFrame({'count': df.groupby(["userID","locationID",]).size()}).reset_index()

解决方法:

这应该是你想要的,但我不确定是否有一个更简单的方法:

In [5]: df.groupby(['locID','userId']).last().groupby(level='locID').size()
Out[5]: 
locID
loc1     3
loc2     1
loc3     2
loc4     1
dtype: int64

取每组的最后一个将删除重复项

标签:duplicate-removal,python,pandas,python-2-7,group-by
来源: https://codeday.me/bug/20190825/1715136.html