python – 自然地排序Pandas DataFrame
作者:互联网
我有一个带有索引的pandas DataFrame,我想自然排序. Natsort似乎不起作用.在构建DataFrame之前对索引进行排序似乎没有帮助,因为我对DataFrame的操作似乎搞乱了进程中的排序.关于如何自然地采用指数的任何想法?
from natsort import natsorted
import pandas as pd
# An unsorted list of strings
a = ['0hr', '128hr', '72hr', '48hr', '96hr']
# Sorted incorrectly
b = sorted(a)
# Naturally Sorted
c = natsorted(a)
# Use a as the index for a DataFrame
df = pd.DataFrame(index=a)
# Sorted Incorrectly
df2 = df.sort()
# Natsort doesn't seem to work
df3 = natsorted(df)
print(a)
print(b)
print(c)
print(df.index)
print(df2.index)
print(df3.index)
解决方法:
如果要对df进行排序,只需对索引或数据进行排序,并直接分配给df的索引,而不是尝试将df作为arg传递,因为这会产生一个空列表:
In [7]:
df.index = natsorted(a)
df.index
Out[7]:
Index(['0hr', '48hr', '72hr', '96hr', '128hr'], dtype='object')
请注意,df.index = natsorted(df.index)也可以
如果你将df作为arg传递它会产生一个空列表,在这种情况下,因为df是空的(没有列),否则它将返回排序的列,这不是你想要的:
In [10]:
natsorted(df)
Out[10]:
[]
编辑
如果要对索引进行排序以便将数据与索引一起重新排序,则使用reindex
:
In [13]:
df=pd.DataFrame(index=a, data=np.arange(5))
df
Out[13]:
0
0hr 0
128hr 1
72hr 2
48hr 3
96hr 4
In [14]:
df = df*2
df
Out[14]:
0
0hr 0
128hr 2
72hr 4
48hr 6
96hr 8
In [15]:
df.reindex(index=natsorted(df.index))
Out[15]:
0
0hr 0
48hr 6
72hr 4
96hr 8
128hr 2
请注意,您必须将reindex的结果分配给新的df或其自身,它不接受inplace param.
标签:python,pandas,sorting,python-2-7,natsort 来源: https://codeday.me/bug/20190917/1809300.html