首页 > 其他分享> > 昨晚试试数据行转列，差点翻了车

昨晚试试数据行转列，差点翻了车

2021-04-11 15:52:55 作者：互联网

昨晚遇到一道数据行转列问题，差点翻了车，跟大家分享一下。

先跟大家讲一下，常见的行转列一般是这种形式：

通常用来考察“如何用SQL、或者Python实现？”

昨天群里有个朋友问了一道类似的题，我张嘴就来。

结果拿来测试表一看，翻车了啊！这并不是常见的那种行转列啊！

相当于分组筛选，然后横向拼接到一起？这思路也不对啊

不过既然是行转列，就先用df.pivot()莽一莽吧。df.pivot()可以将长数据集转换成宽数据集，对于改变DataFrame 的结构往往使用它或者数据透视表。

df.pivot(index=None， columns=None，values=None)

df.pivot()就三个参数，其中index、values非必填，产生的缺省值，会用NaN填充。

参数	说明
index	（可选项）将现有的 column values 设置为新 DataFrame 的 index；没有设置index时，则使用现有的index作为新的 DataFrame 的index^[1]
columns	将现有的 column values 设置为新 DataFrame 的 columns
values	（可选项）将现有的 column values 设置为新 DataFrame 的 values；没有设置values时，则将其他的 column values 全部作为新DataFrame 的 values

先导入测试表

df = pd.read_excel('测试.xlsx',header=0,encoding='utf-8').astype(str)

再看一下想要达到的成果

所以需要设置 columns='小组',values='姓名'，不过这里 values 设置与否意义不大，因为一共两列，省略设置values的话，姓名自然会成为新DataFrame 的 values。

看到充满了NaN，第一时间想到了dropna()，问题是每一行/列都有NaN，一删就删没了。

所以最后采用了df.apply的形式，将每列数据作为Series的数据结构单独删去NaN，这样就不会影响其他列了。

df.pivot(columns='小组').apply(lambda x: pd.Series(x.dropna().values))

一行Python成功解决！

本文相关源码+测试数据集下载：

https://alltodata.cowtransfer.com/s/3855bebc4f254a

标签：index,差点,试试,column,DataFrame,转列,values,df,pivot
来源： https://blog.51cto.com/u_15127540/2698976

昨晚试试 数据行转列，差点翻了车