python-使用大型(15 gb)CSV数据集和Pandas / XGBoost
作者:互联网
我试图找到一种方法来开始在Pandas中处理非常大的CSV文件,最终能够使用XGBoost进行一些机器学习.
在使用mySQL或某些sqllite框架管理数据块之间,我陷入了困境.我的问题在于稍后的机器学习方面,以及一次加载大块数据以训练模型.
我的另一个想法是使用Dask,它是由Pandas构建的,但也具有XGBoost功能.
我不确定最好的起点是什么,并希望征求意见!我倾向于Dask,但尚未使用.
解决方法:
This blogpost通过在大型CSV数据集上使用XGBoost的示例.但是,它是通过使用具有足够RAM的分布式群集来一次将整个数据集放入内存中来实现的.尽管许多dask.dataframe操作可以在很小的空间中进行操作,但我认为XGBoost培训可能不是其中之一.当所有数据始终可用时,XGBoost似乎运行得最好.
标签:xgboost,dask,pandas,machine-learning,python 来源: https://codeday.me/bug/20191111/2017631.html