其他分享
首页 > 其他分享> > 作业03 特征工程

作业03 特征工程

作者:互联网

作业03 特征工程
这次的特征工程有点难度。
首先是搭建环境。Gensim安装总是出错。
在这里插入图片描述
在这里插入图片描述
二个方法解决:
用清华镜像安装
下WHL包,安装
在这里插入图片描述

知识点:
分组统计特征agg的使用非常重要,在此进行代码示例,详细请参考: http://joyfulpandas.datawhale.club/Content/ch4.html
请注意{}和[]的使用
分组标准格式:
df.groupby(分组依据)[数据来源].使用操作

先分组,得到
gb = df.groupby([‘School’, ‘Grade’])

1,使用多个函数
gb.agg([‘具体方法(如内置函数)’])

如gb.agg([‘sum’])
,2,对特定的列使用特定的聚合函数
gb.agg({‘指定列’:‘具体方法’})

如gb.agg({‘Height’:[‘mean’,‘max’], ‘Weight’:‘count’})

3,使用自定义函数
gb.agg(函数名或匿名函数)

如gb.agg(lambda x: x.mean()-x.min())

4,聚合结果重命名
gb.agg([ (‘重命名的名字’,具体方法(如内置函数、自定义函数)) ])

如gb.agg([(‘range’, lambda x: x.max()-x.min()), (‘my_sum’, ‘sum’)])
另外需要注意,使用对一个或者多个列使用单个聚合的时候,重命名需要加方括号,否则就不知道是新的名字还是手误输错的内置函数字符串:
下述代码主要使用了
一种是df.groupby(‘id’).agg{‘列名’:‘方法’},另一种是df.groupby(‘id’)[‘列名’].agg(字典)

下面是报错例:
xy_d_rate = temp1.groupby(‘ship’)[‘hc_xy_s’].agg(‘hc_xy_s_max’: ‘max’,
)
xy_d_rate = xy_d_rate.reset_index()
d_d_rate = temp1.groupby(‘ship’)[‘hc_d_s’].agg(‘hc_d_s_max’: ‘max’,
)
在这里插入图片描述

改为,顺利跑过
xy_d_rate = temp1.groupby(‘ship’)[‘hc_xy_s’].agg([(‘hc_xy_s_max’, ‘max’,
)])
xy_d_rate = xy_d_rate.reset_index()
d_d_rate = temp1.groupby(‘ship’)[‘hc_d_s’].agg([(‘hc_d_s_max’, ‘max’,
)])

在这里插入图片描述

标签:03,特征,max,作业,agg,rate,xy,gb,groupby
来源: https://blog.csdn.net/weixin_44458234/article/details/115842145