如何使用Python pandas“分组”多个变量,消除重复
作者:互联网
我有一个包含这种数据的输入文件:
**> Due big size of input file, i need to take only unique pairs –
userID-locationID (some kind of preprocessing)**
userID locationID 1 loc1 1 loc2 1 loc3 2 loc1 3 loc4 3 loc3 3 loc1
我必须找到每个位置检查了多少个不同的用户,并获得带有值的新列.我已经试过了,但这不是我需要的.
DataFrame({'count': df.groupby(["userID","locationID",]).size()}).reset_index()
解决方法:
这应该是你想要的,但我不确定是否有一个更简单的方法:
In [5]: df.groupby(['locID','userId']).last().groupby(level='locID').size()
Out[5]:
locID
loc1 3
loc2 1
loc3 2
loc4 1
dtype: int64
取每组的最后一个将删除重复项
标签:duplicate-removal,python,pandas,python-2-7,group-by 来源: https://codeday.me/bug/20190825/1715136.html