pandas-groupby

首页 > TAG信息列表 > pandas-groupby

python-熊猫-从每个用户检索先前的结果/行

我是熊猫新手. 我有一个看起来像这样的数据框(只有更大)： Horses RaceDate Position 1 RedHorse 1/2/00 2 2 BlueHorse 1/2/00 6 3 YellowHorse 1/2/00 7 4 RedHorse 15/1/00 3 我想为以前的结果添加列.这样我的数据框可能最终看起来像

累积条件计数

我有以下数据框. df = pd.DataFrame( { "drive": [1,1,2,2,2,3,3,3,4,4,4,5,5,6,6,7,7], "team": ['home','home','away','away','away','home','home','home

当大于组数时,nlargest(N)的行为？

我已经从以下列表构建了一个DataFrame df_list_1 = [{"animal": "dog", "color": "red", "age": 4, "n_legs": 4,}, {"animal": "dog", "color": "blue", "age&

迭代后合并组

我有一个数据框,其中包含国家和年份的值： country year value US 2000 20 JP 2000 10 AU 2000 5 US 2001 22 JP 2001 12 AU 2001 6 US 2002 23 JP 2002 14 AU 2002 8 我想计算每个国家在几年之间的变化百分比,

使用Pandas在Python中对数据框的行子集进行分组

我从包含30万行的数据集中得到以下数据框： CustomerID Revenue 0 17850.0 15.30 1 17850.0 11.10 2 13047.0 17.85 3 13047.0 17.85 4 17850.0 20.34 5 13047.0 12.60 6 13047.0 12.60 7 13047.0 31.80 8 17850.0 20.3

按熊猫分组并排序

我已经按功能分组,我想按时间顺序按月份排序,该怎么办？当前,该功能按字母顺序对月份进行排序： func = {'Predictions':['count','mean','median']} table1 = df.groupby(['FLAG','MONTH']).agg(func) 表格1 Predictions

使用groupby进行扩展和自定义功能

我有一个包含trueIds和trackIds的数据框： truthId = ['A', 'A', 'B', 'B', 'C', 'C', 'A', 'C', 'B', 'A', 'A', 'C', 'C'] trackId = [1, 1, 2,

python-在透视期间选择不同的聚合函数

数据框： df = pd.DataFrame({'First' : ['Mary', 'John', 'Jane', 'Mary', 'Jane', 'Mary', 'Mary'], 'Last' : ['Johnson', 'Smith', &#

python-熊猫groupby和value_counts

我想对每列中的不同值(我猜是pd.value_counts)进行计数,以便在MultiIndex中按某种级别对数据进行分组.使用groupby(level =参数可以处理multiindex,但是apply会引发ValueError 原始数据框： >>> df = pd.DataFrame(np.random.choice(list('ABC'), size=(10,5)), co

python-对pandas组执行按索引排序的更快方法

我有一个名称为(person_name),颜色为(shirt_color)的数据框每个人在特定的日子都穿某种颜色的衬衫(天数可以是任意的) 例如输入： name color ---------------- John White John White John Blue John Blue John White Tom Blue Tom Blue Tom Green

python-如何在给定列值的函数中对列进行分组和排序

我有一个如下数据框,我需要编写一个函数,该函数应该能够为我提供以下结果：输入参数： >国家/地区,例如“ INDIA” >年龄,例如“学生” 我的输入数据框如下所示： Card Name Country Age Code Amount 0 AAA INDIA Young House 100 1

python-更改pandas groupby使用的函数中的值

我正在执行以下操作： def percentage(x): return x[(x<=5)].count() / x.count() * 100 full_data = full_data.groupby(['Id', 'Week_id'], as_index=False).agg({'Volume': percentage}) 但是我想用百分比函数中的x <= 7,x <= 9,x <= 11等多个值连续进

python-行中的熊猫层次结构索引

我认为这应该是一个小问题,但是我无法找到解决方案. 假设您有以下DF pd.DataFrame({'Math_0':[1,2,6,'math'],'Math_1':[8,3,7,'math'],'science_0':[9,5,2,'science']}, index=['Jeff','Bob','Cal�

python-从pandas DataFrame返回最后一个有效(非null)值

假设我有一个数据框看起来像： a b 0 11 A 1 -2 A 2 3 A 3 NA A 4 0.5 B 5 NA B 6 -9 B 我可以按“ b”创建组.有没有一种快速的方法来获取每个组的“ a”中的最后一个非NA值？在这种情况下,A组为3,B组为-9. (在

python-根据pandas数据框中的列标签对数据进行分组

我一直在阅读有关pandas数据框中的分层索引和多索引的信息,但似乎这些都是针对有序标签的.例如,我的数据如下所示：我希望能够根据列标签将数据分组在一起.通过平均将第3行中所有带有’d’的列汇总在一起. 将此excel数据(或绝对需要的csv)放入数据帧的最佳方法是什么,以便我可以执行

python-一组循环的熊猫

我有一个具有类别字段“城市”和2个指标(年龄和体重)的数据集.我想使用循环为每个城市绘制散点图.但是,我很难在单个语句中组合所需的分组依据和循环.如果仅使用for循环,则最终会得到每个记录的图表,如果我按组进行分组,则会得到正确数量的图表,但没有值. 这是我的代码,仅在与我的

python-在Pandas DataFrame中构建复杂的子集

我正在使用GroupBy,但仍然需要一些帮助.假设我有一个带有列Group的DataFrame,为对象提供了组编号,一些参数R和球坐标RA和Dec.这是一个模拟DataFrame： df = pd.DataFrame({ 'R' : (-21.0,-21.5,-22.1,-23.7,-23.8,-20.4,-21.8,-19.3,-22.5,-24.7,-19.9), 'RA': (154.362

python-分组内的Pandas groupby排序保留了多个聚合

我想在groupby返回的组中应用排序和限制,如this question.但是,我有多个聚合,并且我希望所有聚合都保留在结果中. 这是一个简单的示例： products = ["A", "B", "C", "D"] stores = ["foo", "bar", "baz"] n = 30 product_list = [products[i] for i in

python-熊猫数据框聚合固定数量的行

我正在处理一些数据,在这里我想获得每匹马在最近一次奔跑中的排名(终点).运行日期定义为“ race_id”. 有没有一种方法可以使用groupby和agg,但是只汇总前6个值？数据帧如下： finishing_position horse_id race_id 1 K01 2014011 2

在python中按特定年份分组数据

我想创建一个按区域和日期分组的数据框,以显示特定年份区域的平均年龄.所以我的对话看起来像 region, year, average age 到目前为止,我有： #specify aggregation functions to column'age' ageAverage = {'age':{'average age':'mean'}} #groupby and apply function

python-来自groupby的Pandas累积差异

我需要从MultiIndex级别的开始算起差,从级别的开始算出衰减.我的示例输入和输出将如下所示： values place time A a 120 b 100 c 90 d 50 B e 11 f 12

python-DataError：没有使用均值聚合函数但不求和的数值类型？

我想知道是否有人可以使用agg()帮助解释以下行为 import numpy as np import pandas as pd import string 初始化数据框 df = pd.DataFrame(data=[list(string.ascii_lowercase)[0:5]*2,list(range(1,11)),list(range(11,21))]).T df.columns = columns=['g','c1','c2'

python-Pandas GroupBy-仅显示具有多个唯一特征值的组

我有一个看起来像这样的DataFrame df_things,我想在训练之前预测分类的质量 A B C CLASS ----------------------- al1 bal1 cal1 Ship al1 bal1 cal1 Ship al1 bal2 cal2 Ship al2 bal2 cal2 Cow al3 bal3 cal3 Car al1 bal2 cal3 Car al3

python-根据条件分组和子集行

我想过滤我的数据框. 我的数据框 Col1 col2 0 A event1 1 A event2 2 A event3 3 A event2 4 B event1 5 B event3 6 B event2 7 B event2 输出数据框 Col1 col2 A event1 B event1 B event3 它应该为每个组返回e

python-从库存数据获取每天的首次交易时间

最近,我得到了一个csv文件,其中包含我们公司在不同市场/工具上进行的交易.我的数据集包含超过50万行. 这是我的数据样本,其中没有不相关的列(此刻)： Market Price Quantity Time 2019-01-01 09:42:16 Share 180.00 5.0 2019-01-01 09:44:59 Share 180.00 10.0