首页 > TAG信息列表 > large-files

在python中转换大文件

我有一些大约64GB的文件,我想将其转换为hdf5格式.我想知道这样做的最佳方法是什么?逐行阅读似乎要花费超过4个小时,因此我一直在考虑顺序使用多处理,但希望在不求助于hadoop的情况下,找到最有效的方法.任何帮助将不胜感激. (并预先感谢您)解决方法:对于此类问题,我通常转而使用Pytho

linux-编辑大文件的第一行和最后一行

我想在一个非常大的文件(〜500GB)中编辑第一行和最后一行.怎么办呢?例如,在第一行中,我有: -flag </begin> 我想省略“ -flag”.我尝试使用sed(如图所示)编辑第一行,但是我没有用: sed -i '1s/-flag <begin>/<begin>/g' file.txt 解决方法:我想不出一种可以就地完成此操作的方法

打开大型MySQL转储的程序

是否有一个GUI程序可以读取大型MySQL转储(200MB),或者实际上是任何大型文本文件? 大多数现代编辑器似乎无法处理大文件,因为它们似乎希望将整个文件加载到内存中. 我想在Ubuntu(Linux)上打开它,但我也想在Windows上阅读它.解决方法:vi(或Vim)可以处理它,没问题.

python-以小块创建非常大的NUMPY数组(PyTables与numpy.memmap)

关于SO的问题似乎很多,但是它们并不能完全回答我的问题.我认为这对于计算科学家来说是一个非常普遍的用例,因此我提出了一个新问题. 题: 我从文件中读取了几个小的numpy数组(每个数组约10 MB),并对它们进行了一些处理.我想创建一个更大的数组(〜1 TB),其中数组中的每个维度都包含这

使用Python lxml和Iterparse解析大型XML文件

我正在尝试使用lxml和iterparse方法编写解析器来逐步执行包含许多项的非常大的xml文件. 我的文件格式为: <item> <title>Item 1</title> <desc>Description 1</desc> <url> <item>http://www.url1.com</item> </url> </item> <item>

PHP fwrite()用于将大字符串写入文件

我必须写一个10MB的大字符串到文件,我使用这一行来实现: fwrite($file, $content); 问题是:没有将整个字符串写入文件,并且限制为特定限制. 和fwrite总是返回7933594.解决方法:是的,fwrite函数仅限于长度,对于大文件,您可以将文件拆分为较小的部分,如下所示: $file = fopen("

php – 如何将XMLReader / DOMDocument与大型XML文件一起使用并防止500错误

我有一个大约12mb的XML文件,大约有16000个产品.我需要将它处理成一个数据库;然而,在大约6000行时,它会因500错误而死亡. 我正在使用Kohana框架(版本3),以防万一与它有任何关系. 这是我在控制器中的代码: $xml = new XMLReader(); $xml->open("path/to/file.xml"); $doc = new DOMD

[Android SDK]无法从Assets复制外部数据库(13MB)

我需要一个我正在开发的游戏的意大利语单词列表但我实际上无法让它从资产中复制我的数据库.我尝试了很多我在网站上找到的解决方案,例如: > Using your own SQLite database in Android applications > how to copy large database which occupies much memory from assets folder t

C read()问题

我在Visual Studio 2010中用C语言将大文件读入我自己的缓冲区时遇到了问题.下面是我的代码片段,其中length是我正在读取的文件的大小,bytesRead在运行之前设置为0 ,file是std :: ifstream. buffer = new char[length]; while( bytesRead < length ){ file.read( b

远程linux服务器到远程linux服务器大型稀疏文件拷贝 – 如何?

我有两个双胞胎CentOS 5.4服务器,每个服务器都安装了VMware Server. 假设我总是将稀疏文件用于我的vmware虚拟机,那么将虚拟机文件从一台服务器复制到另一台服务器的最可靠,最快速的方法是什么? vm的文件很难复制,因为它们非常大(50 GB),但由于它们是稀疏文件,我认为可以采取一些措

在python中解析一个大的(~40GB)XML文本文件

我有一个我想用python解析的XML文件.什么是最好的方法呢?考虑到内存整个文档将是灾难性的,我需要以某种方式一次读取一个节点. 我所知道的现有XML解决方案: >元素树 > minixml 但是因为我提到的问题,我担心他们不会上班.另外我无法在文本编辑器中打开它 – 用于处理巨型文本文件的任

用于将大字符串写入文件的PHP fwrite()

我必须写一个10MB的大字符串到文件,我使用这一行来实现: fwrite($file, $content); 问题是:没有将整个字符串写入文件,并且限制为特定限制. 和fwrite总是返回7933594.解决方法:是的,fwrite函数仅限于长度,对于大文件,您可以将文件拆分为较小的部分,如下所示: $file = fopen("

从python中的大量xml文件中提取信息的最有效方法是什么?

我有一个目录已满(~103,104)的XML文件,我需要从中提取几个字段的内容. 我已经测试了不同的xml解析器,因为我不需要验证内容(昂贵)我只想使用xml.parsers.expat(最快的一个)遍历文件,逐个提取数据. >有更有效的方法吗? (简单文本匹配不起作用)>我是否需要为每个新文件(或字符串)发出

c – 如何在32位系统上读取4GB文件

在我的情况下,我有不同的文件让我们假设我有> 4GB文件的数据.我想逐行读取该文件并处理每一行.我的一个限制是软件必须在32位MS Windows上运行,或者在64位上运行少量RAM(最小4GB).您还可以假设这些行的处理不是瓶颈. 在当前的解决方案中,我通过ifstream读取该文件并复制到某个字符

python – 生成大文件并发送它

我有一个相当大的.csv文件(最多100万行),我想在浏览器请求时生成和发送. 我当前的代码是(除了我实际上没有生成相同的数据): class CSVHandler(tornado.web.RequestHandler): def get(self): self.set_header('Content-Type','text/csv') self.set_header('content-Disp

python – 对未知行长度的巨大文件进行二进制搜索

我正在处理大量数据CSV文件.每个文件包含数百万条记录,每条记录都有一个密钥.记录按其密钥排序.我不想在搜索certian数据时查看整个文件. 我见过这个解决方案:Reading Huge File in Python 但它建议你在文件上使用相同长度的行 – 在我的情况下不支持. 我想为每行添加一个填充,然后

python – 使用太大而无法存储在内存中的文件?

我有一个20 GB的文件,如下所示: Read name, Start position, Direction, Sequence 请注意,读取名称不一定是唯一的. 例如.我的文件片段看起来像 Read1, 40009348, +, AGTTTTCGTA Read2, 40009349, -, AGCCCTTCGG Read1, 50994530, -, AGTTTTCGTA 我希望能够以允许我的方式存储这

linux – 尝试从git repo中删除一个大文件夹,但耗时太长

我有一个git repo,其中包含一个包含大约70,000个文件的文件夹.这是一个痛苦,所以我没有使用70,000个文件,而是将它们压缩成一个tar.gz. 我现在正试图从git repo中删除该目录,但它似乎比我想象的要长很多.我想知道每次我尝试删除文件夹时git是否只是挂起. 当我做一个htop时,我确实看

Python – 在数百个大型gzip压缩文件中搜索项目

不幸的是,我正在处理一个非常大的语料库,它实际上已经传播到数百个.gz文件中 – 价值24千兆字节(打包). Python真的是我的母语(哈)但是我想知道我是否还没遇到过需要学习“更快”语言的问题? 每个.gz文件包含一个纯文本的单个文档,大约56MB gzip压缩,大约210MB解压缩. 每一行都是n-g

java – 从大文件中提取模式的更多性能方法(超过700MB)

我有一个问题,需要我从本地机器解析一个文本文件.有一些并发症: >文件可能很大(700mb) >模式出现在多行中>我需要在模式之后存储行信息 我使用BufferReader,String.indexOf和String.substring(获取第3项)创建了一个简单的代码. 在文件内部,它有一个名为code =的密钥(模式),它在不同

ruby-on-rails – Nginx代理重定向到另一个URI

我们的网站是各种图像存储库.每个图像都具有外部URL和内部URL的概念.外部URL由客户端看到,并且随着我们尝试SEO而改变.内部URL是永久URL,指向我们的图像托管服务.我们使用Ruby on Rails应用程序提供URL转换.以下是请求的示例: -------- ----- ------- -------

用php压缩大文件

我有一个PHP表单,有一堆复选框,都包含文件的链接.一旦用户点击他们想要的复选框(文件),它就会压缩文件并强制下载. 我有一个简单的PHP zip强制下载工作,但当其中一个文件很大或有人说让选择整个列表压缩和下载,我的服务器出错了. 我知道我可以增加服务器大小,但还有其他方法吗?解决

PHP用cURL下载一个巨大的电影文件(500 MB)

好的,我有一个问题,希望你能帮我解决. 我正在运行一个存储视频文件的服务器,这些文件非常大,有些高达650 MB.我需要用户能够请求此页面并将文件下载到他们的计算机上.我已经尝试了所有的东西,但是一个普通的readfile()请求在退出之前会挂起大约90秒并且给我一个“没有数据收到错误3

python – 使用生成器的WSGI文件流

我有以下代码: def application(env, start_response): path = process(env) fh = open(path,'r') start_response('200 OK', [('Content-Type','application/octet-stream')]) return fbuffer(fh,10000) def fbuffer(f

使用Java读取大型Excel文件的最佳API是什么?

我需要使用Java读取大型Excel工作表. Excel工作表可能是.xls或.xlsx.该表可能有数千行.我必须读取所有行并在数据库中插入该行. 所以基本上从Excel读取并写入数据库. 我正在考虑的API是POI和JExcel API(在搜索和阅读SO中的其他相关文章之后). 但我仍然不确定什么是阅读非常大的Exce