编程语言
首页 > 编程语言> > python – Pandas中数据帧子集的随机样本

python – Pandas中数据帧子集的随机样本

作者:互联网

假设我有一个包含100,000个条目的数据框,并希望将其拆分为1000个条目的100个部分.

我如何采取100个部分中只有一部分的50个随机样本.数据集已经被排序,前1000个结果是下一个部分的第一个部分,依此类推.

非常感谢

解决方法:

您可以使用sample方法*:

In [11]: df = pd.DataFrame([[1, 2], [3, 4], [5, 6], [7, 8]], columns=["A", "B"])

In [12]: df.sample(2)
Out[12]:
   A  B
0  1  2
2  5  6

In [13]: df.sample(2)
Out[13]:
   A  B
3  7  8
0  1  2

*在其中一个DataFrames上.

注意:如果您的样本量较大,那么DataFrame的大小会引发错误,除非您使用替换进行采样.

In [14]: df.sample(5)
ValueError: Cannot take a larger sample than population when 'replace=False'

In [15]: df.sample(5, replace=True)
Out[15]:
   A  B
0  1  2
1  3  4
2  5  6
3  7  8
1  3  4

标签:random-sample,sample,python,pandas
来源: https://codeday.me/bug/20191001/1840244.html