其他分享
首页 > 其他分享> > pandas.DataFrame.sample随机抽样

pandas.DataFrame.sample随机抽样

作者:互联网

在大数据时代,我们建模数据量可能达到千万级甚至TB。大数据在给投资者介绍时很必要,容易得到融资。但对于数据科学家来说,有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。如果用全量数据建模或数据分析,成本太高,需要高性能服务器存储数据。这对中小公司来说不现实。

最经典案例是二战中德军坦克问题。在第二次世界大战期间,西方盟国不懈地努力确定德国的生产规模,并以两种主要方式进行处理:常规情报收集和统计估计。

a4342b870e262e5b423eb5ba3b901a04.jpeg

英国人用统计学方法估计德国坦克数量和德国真实坦克数量非常接近,远比情报部门数据准确。

93feede1759e8de6700ab2dd774cd1cd.jpg

python的pandas中自带有抽样的方法。这是相关官网文档介绍:

pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org7114d16ba6051146859851a3b7a6e823.jpeg

输入参数说明

7164aac8d8407fd352168e8ae1b27ebb.jpeg7ff30366ef2920281f4dfc77c79d6272.jpeg

欢迎各位学习更多数据分析知识(博主录制)

https://edu.51cto.com/sd/8faab
呆瓜半小时入门python数据分析-数据是新时代石油

标签:建模,DataFrame,sample,坦克,数据,pandas
来源: https://blog.51cto.com/15002417/2666777