编程语言
首页 > 编程语言> > 在python中转换大文件

在python中转换大文件

作者:互联网

我有一些大约64GB的文件,我想将其转换为hdf5格式.我想知道这样做的最佳方法是什么?逐行阅读似乎要花费超过4个小时,因此我一直在考虑顺序使用多处理,但希望在不求助于hadoop的情况下,找到最有效的方法.任何帮助将不胜感激. (并预先感谢您)

解决方法:

对于此类问题,我通常转而使用Python.没错,多处理/并行化是一个很好的解决方案,但是Python在该领域不能令人满意.考虑在JVM上尝试一些操作.我喜欢Clojure的core.async,但还有针对JRuby的peach(“并行”)或celluloid库,它们与Python更加接近.

这种方法不必像Ha​​doop那样“繁重”,但是我仍然会在文件上使用类似的映射/缩减模式.有一个线程正在从源文件逐行读取并分派到多个线程. (使用core.async,我将有多个队列,这些队列将被不同的线程占用,然后将“完成的”信号反馈到看门狗线程中.)最后,您应该能够从CPU中获得很多性能.

标签:large-data,large-files,python,database
来源: https://codeday.me/bug/20191121/2053495.html