首页 > TAG信息列表 > large-data-volumes

Java中的STXXL等效项

我正在搜索一个为Java中的大型数据集设计的收集框架,该收集框架的行为透明,就像C的STXXL一样. 它应该透明地交换到磁盘,但是比基于普通OS的VM交换要有效得多.使用StringBuffer / String替换将是一大优势.解决方法:这些填充仅需要部分: Oracle Berkeley DB Java版数据库支持的集合: ht

php-如何查询,然后在较短的时间内处理大量

我有一张大桌子的订单.在设定的时间,我需要向他们的一大块发送一条SMS消息(不幸的是,每个消息的内容不同)(基于他们是否选择了该消息以及是否包含电话号码).在相当短的时间内它可能是200,000个数字. (现在还不算高,但是从理论上讲可以并希望如此构建). 它们并不需要全部立即发送,但

高效的MySQL模式,具有对大型数据集进行分区的功能(7.300.000.000行和大约80 GB的数据)

这是我的问题“有效存储7.300.000.000行”(Efficiently storing 7.300.000.000 rows)的后续措施. 我决定将MySQL与分区配合使用,初步架构如下所示: CREATE TABLE entity_values ( entity_id MEDIUMINT UNSIGNED DEFAULT 0 NOT NULL, # 3 bytes = [0 .. 16.777.215] date_id SMA

在Python中将数值数据快速转换为固定宽度格式的文件

将仅包含数字数据的记录转换为固定格式字符串并将其写入Python文件的最快方法是什么?例如,假设记录是一个庞大的列表,其中包含具有id,x,y和wt属性的对象,我们经常需要将它们刷新到外部文件中.可以使用以下代码段进行冲洗: with open(serial_fname(), "w") as f: for r in recor

使用大型数据结构时,避免在Java(eclipse)中出现“内存不足错误”?

好的,因此我正在编写一个程序,不幸的是,该程序需要使用巨大的数据结构来完成其工作,但是在初始化过程中,它由于“内存不足错误”而失败.尽管我完全理解这意味着什么以及它为什么会产生问题,但是我很难克服它,因为我的程序需要使用这种大结构,而且我不知道其他任何存储方法. 该程序

Python – 令人难以置信的大型矩阵的最佳数据结构

我需要创建大约200万个向量,每个向量1000个插槽(每个插槽只包含一个整数). 处理这些数据的最佳数据结构是什么?可能是我高估了所涉及的处理/内存量. 我需要迭代一组文件(总共大约34.5GB)并且每次在一行上遇到200万个项目中的一个(每个对应一个向量)时更新向量. 我可以轻松地为此编写

大型MySQL表

对于我正在开发的Web应用程序,我需要存储大量记录.每条记录将包含一个主键和一个(short-ish)字符串值.我希望有大约100GB的存储空间,并且希望能够全部使用它. 记录将被频繁插入,删除和读取,我必须使用MySQL数据库.数据完整性并不重要,但性能却是如此.我可能会遇到哪些问题和陷阱以

java高效重复数据删除

假设您有一个大文本文件.每行包含一个电子邮件ID和一些其他信息(比如一些product-id).假设文件中有数百万行.您必须在数据库中加载此数据.您如何有效地重复数据删除(即消除重复)?解决方法:疯狂的行数 >使用Map& Reduce框架(例如Hadoop).这是一个完整的分布式计算,所以除非你有TB的数

需要在python中比较1.5GB左右的非常大的文件

"DF","00000000@11111.COM","FLTINT1000130394756","26JUL2010","B2C","6799.2" "Rail","00000.POO@GMAIL.COM","NR251764697478","24JUN2011","B2C","

Python – 在数百个大型gzip压缩文件中搜索项目

不幸的是,我正在处理一个非常大的语料库,它实际上已经传播到数百个.gz文件中 – 价值24千兆字节(打包). Python真的是我的母语(哈)但是我想知道我是否还没遇到过需要学习“更快”语言的问题? 每个.gz文件包含一个纯文本的单个文档,大约56MB gzip压缩,大约210MB解压缩. 每一行都是n-g

php – 从大表中获取随机结果

我试图从一个包含大约700万条记录的表中获得4个随机结果.另外,我还希望从同一个表中获得按类别过滤的4个随机记录. 现在,正如您所想象的那样,对表进行随机排序会导致查询花费几秒钟,这并不理想. 我想到的另一种非过滤结果集的方法是让PHP选择1到7,000,000之间的一些随机数,然后用查

优化MySQL聚合查询

我在MySQL中有一个非常大的表(大约100万条记录),其中包含有关文件的信息.其中一条信息是每个文件的修改日期. 我需要编写一个查询来计算适合指定日期范围的文件数.为此,我创建了一个小表来指定这些范围(以天为单位),如下所示: DateRanges range_id range_name range_start ra

mysql – 在数据库中存储大量图形数据结构

This question询问关于在关系数据库中存储单个图.在这种情况下,解决方案很明确:一个表用于节点,一个表用于边缘. 我有一个随着时间的推移而发展的图形数据结构,所以我想将这个图的“快照”存储在数据库中.我想有数百个这样的快照. 一种解决方案是为每个快照创建一对全新的节点和边对

一次只获取N行(MySQL)

我正在寻找一种方法来从较小的块中获取大表中的所有数据. 请指教.解决方法:回答标题中的问题使用LIMIT运算符 SELECT * FROM table LIMIT 0,20 至于一个来自身体,它太宽泛,不能要求某个代码示例,不是吗?

java – 如何设计实时警报系统?

我有一个要求,当db中的记录未按指定的时间间隔更新/更改时,我必须发送警报.例如,如果收到的采购订单未在一小时内处理,则应将提醒发送给交货经理. 提醒/警报应该以间隔(包括秒)发送.如果上次修改时间是13:55:45,则应该触发警报14:55:45.可能需要跟踪数百万行. 简单的方法可能是实现