首页 > TAG信息列表 > large-data

mysql-哪个数据库引擎适合10 ^ 10记录?

我计划使用mysql存储我的数据集. 我有大约10 ^ 8(亿)条记录:ID(int),x(float),y(float),z(float),property(float). 哪种数据库引擎适合于这种数据集InnoDB或MyISAM?还是NDB(我对可伸缩性或性能一无所知)? 我打算用以下问题查询静态数据集: Select getRectagularRegion or getPointsI

Python Numpy Memmap矩阵乘法

我试图在两个巨大矩阵(10 * 25,000,000)之间产生通常的矩阵乘法. 这样做会耗尽我的记忆力.我如何使用numpy的memmap来处理此问题?这是个好主意吗?我并不担心操作的速度,我只是想要结果,即使这意味着要等待一段时间.谢谢高级! 8 GB RAM,I7-2617M 1.5 1.5 GHz,Windows7 64位.我正在使用

用Python将数据导入Namedtuple

我正在尝试将数据导入namedtuple.数据非常大,我需要有效地导入.我在尝试 myData = namedtuple('myData', 'div, name, val') csv.register_dialect('mycsv', delimiter='\t', quoting=csv.QUOTE_NONE) with open('demand.txt', 'rb') as

在python中转换大文件

我有一些大约64GB的文件,我想将其转换为hdf5格式.我想知道这样做的最佳方法是什么?逐行阅读似乎要花费超过4个小时,因此我一直在考虑顺序使用多处理,但希望在不求助于hadoop的情况下,找到最有效的方法.任何帮助将不胜感激. (并预先感谢您)解决方法:对于此类问题,我通常转而使用Pytho

mysql-在大表上用LEFT JOIN查询确实很慢

以下查询大约需要12秒钟才能执行.我曾尝试优化,但未能做到.要连接的表相当大(> 8.000.000条记录). SELECT p0_.id AS id_0, p0_.ean AS ean_1, p0_.brand AS brand_2, p0_.type AS type_3, p0_.retail_price AS retail_price_4, p0_.target_price A

我如何在Keras中训练HDF5文件中存储的数据的神经网络?

我有两个相当大的PyTables EArray,其中包含回归任务的输入和标签.输入数组为4d(55k x 128 x 128 x 3),标签数组为1d(55k).我有一个在Keras中指定的NN体系结构,我想在此数据上进行训练,但是有两个问题. >输入数组至少太大,无法立即放入内存. >我只想对全部数据的一些随机子集进行训

MemoryError-如何使用Python通过Google Drive SDK下载大文件

从Google云端硬盘下载大文件时,我的内存不足. 我假设tmp = content.read(1024)不起作用,但是如何解决?谢谢. def download_file(service, file_id): drive_file = service.files().get(fileId=file_id).execute() download_url = drive_file.get('downloadUrl') title = driv

Python中的日志计算

我想要计算类似的东西: 其中f(i)是一个函数,它在[-1,1]中为{1,2,…,5000}中的任何i返回实数. 显然,和的结果在[-1,1]中,但是当我似乎无法使用直接编码在Python中计算它时,0.55000变为0并且梳子(5000,2000)变为inf ,这导致计算的总和变成NaN. 所需的解决方案是使用双面登录. 那是使用

从php [copy]中的csv文件中读取大数据

参见英文答案 > file_get_contents => PHP Fatal error: Allowed memory exhausted                                    3个 我正在读csv&用mysql检查记录是否存在于我的表中或不存在于php中. csv有大约25000条记录&当我运行我的代码时,它在2

python – 使用pandas的“大数据”工作流程

在学习大熊猫的过程中,我试图解决这个问题的答案已有好几个月了.我使用SAS进行日常工作,这非常适合它的核心支持.然而,由于其他许多原因,SAS作为一款软件非常糟糕. 有一天,我希望用python和pandas替换我对SAS的使用,但我目前缺乏大型数据集的核心工作流程.我不是在谈论需要分布式网

在Java中将大数据集加载到ArrayList(ArrayList的最大容量)

我正在尝试加载超过2 ^ 32个元素的数据集,并将这些元素放在ArrayList anArrayList中.此数据按时间顺序排列,因此我使用ArrayList存储数据以保持顺序.同时,我想快速访问String elementID中的元素.现在我使用HashMap将elementID映射到anArrayList中的元素Object. 我使用整数currentAd

linux – 如何加速提取大量小文件的大型tgz文件?

我有一个tar存档(17GB),它包含许多小文件(所有文件都<1MB). 我如何使用此存档. >我提取它吗?在我的笔记本电脑上使用7-zip说需要20小时(而且我认为需要更多时间)>我可以在不提取文件的情况下阅读/浏览文件的内容吗?如果是,那怎么样?>还有其他选择吗? 它实际上是一个处理过的维基百科数

在C中处理非常大的距离矩阵(如果可能有帮助,则处理C)

我在我的软件中用C实现了这个聚类算法http://www.sciencemag.org/content/344/6191/1492.full(free access version),我需要建立一个距离矩阵,但在某些情况下,数据集的大小(在冗余删除之后)是巨大的(n> 1 500 000并且它甚至更大,在更复杂的情况下高达4 000 000).我的问题是,即使分

c – 哪个矢量和地图使用更少的内存(大数据集和未知大小)

我想知道哪个容器在std :: map和std :: vector之间使用较少的内存和一大组数据. 大量帖子谈论效率,我的优先级不是效率而是内存消耗.所以,如果我们不知道我们的数据的数量(在我的情况下可以超过12,000,000个条目,每个条目是一个20个字符的字符串),地图真的比矢量好吗?解决方法:取决

在C#中复制大量数据的方法

我使用以下方法将目录的内容复制到不同的目录. public void DirCopy(string SourcePath, string DestinationPath) { if (Directory.Exists(DestinationPath)) { System.IO.DirectoryInfo downloadedMessageInfo = new DirectoryInfo(Destination

使用Django和MySQL存储和查找大型DNA微阵列结果

我正在尝试设置一个django应用程序,它允许我存储和查找dna微阵列的结果,其中包含~50万个独特探针,适用于大量受试者. 我一直在玩的模型设置如下: class Subject(models.Model): name = models.CharField() class Chip(models.Model): chip_name = models.Charfield() cla

在长时间运行的Python进程中迭代大型数据集 – 内存问题?

我正在研究一个长期运行的Python程序(其中一部分是Flask API,另一部分是实时数据获取程序). 我的长时间运行过程经常(大多数情况下,API可能每秒数百次)迭代大数据集(第二次观察某些经济系列,例如1-5MB的数据甚至更多).它们还在系列之间进行插值,比较和计算等. 为了保持我的进程存活

用于处理非常大的矩阵的Python库

什么是用于处理非常大的矩阵(例如数百万行/列)的优秀Python库,包括在矩阵生命的任何阶段添加行或列的能力? 我查看过pytables和h5py,但是一旦创建了矩阵,它们都不支持添加或删除行或列. 我能找到的另一件事是these questions中提到的numpy / scipy中的稀疏矩阵功能.但是,添加/删除行

无法在java中打印非常大的字符串(既不在Eclipse中也不在cmd中)

我正在使用非常大的字符串,其长度范围从0到2 * 10 ^ 5. 当我尝试在控制台上打印字符串或通过System.out.println使用命令行时,没有任何显示.仅显示具有4096个字符的字符串/子字符串.而且,我没有错误. 我还尝试使用System.out.print(chararray [i])一次打印一个字符,但无济于事. 我

SQLite在Python上插入数百万行的性能

SOLVED: CL.’s comment solved it – increasing the cache size works. Apparently primary keys are very memory heavy during inserts on large tables. 我正在尝试使用Python脚本来解析Wikipedia档案. (是的,我知道.)当然: >维基百科XML:45.95 GB >可用内存:16 GB 这样就无法

PHP中的大型mysql查询

我有一张大约1400万行的大桌子.每行包含一个文本块.我还有另一个大约6000行的表,每行有一个单词和每个单词的六个数值.我需要从第一个表中获取每个文本块,并找到第二个表中每个单词出现的次数,然后计算每个文本块的六个值的平均值并存储它. 我有一台带有i7和8GB内存的debian机器应

带有多个选项卡的PHPExcel大型数据集 – 内存耗尽

使用PHPExcel我可以单独运行每个选项卡并获得我想要的结果但是如果我将它们全部添加到一个excel中它只是停止,没有错误或任何事情. 每个标签包含大约60到8万条记录,我有大约15到20个标签.因此大约有1600000条记录分成多个标签(这个数字也可能会增长). 我还使用.xlsx扩展测试了.xls

python中大数据集的文本分类

我有220万个数据样本分类到超过7500个类别.我正在使用pandas和sckit-learn of python这样做. 以下是我的数据集示例 itemid description category 11802974 SPRO VUH3C1 DIFFUSER VUH1 TRIPLE Space heaters Architectur