首页 > 系统相关> > java-查询包含集合(设置)的大行时,Cassandra中出现内存不足错误

java-查询包含集合(设置)的大行时,Cassandra中出现内存不足错误

2019-11-20 09:04:09 作者：互联网

我正在使用Cassandra 2.0.8,并且有一个cql3表定义如下：

CREATE TABLE search_scf_tdr (
  fieldname text,
  fieldvalue text,
  scalability int,
  timestamptdr bigint,
  tdrkeys set<blob>,
  PRIMARY KEY ((fieldname, fieldvalue, scalability), timestamptdr)
)

我为此密钥空间使用每个DC 2的复制因子.
我通过使用如下更新将项逐个添加到tdrkeys集合中来插入此表：

UPDATE search_scf_tdr SET tdrkeys = tdrkeys + "new value" WHERE "all primary key fields";

tdrkeys中的每个元素均为84字节(固定大小).

在此表中查询时,我一次查询约160行(使用timetamptdr的范围和可伸缩性以及fieldname和fieldvalue的固定值).行在tdrkeys集合中包含数千个元素.

我有一个由42个节点组成的集群,分为两个数据中心.
我有使用datastax java驱动程序2.0.9.2的单独服务器,在每个数据中心中总共运行24个线程,以一致性级别ONE调用此查询(每个查询之间的结果做很多其他事情)：

SELECT tdrkeys FROM search_scf_tdr WHERE fieldname='timestamp' and fieldvalue='' and scalability IN (0,1,2,3,4,5,6,7,8,9,10) and timestamptdr >= begin and timestamptdr < end;

每个Cassandra节点都有8 Gb的Java堆和16 Gb的物理内存.我们已经尽可能地调整了cassandra.yaml文件和JVM参数,但是仍然会遇到内存不足的问题.

我们因内存错误而发生的堆转储显示了线程(200到300之间)占用了超过6 Gb的堆,其中包含许多org.apache.cassandra.io.sstable.IndexHelper $IndexInfo实例,其中包含2个HeapByteBuffer 84个字节的数据.

Cassandra system.log显示如下错误：

ERROR [Thread-388] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[Thread-388,5,main]
java.lang.OutOfMemoryError: Java heap space
ERROR [ReadStage:321] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[ReadStage:321,5,main]
java.lang.OutOfMemoryError: Java heap space
    at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
    at java.nio.ByteBuffer.allocate(ByteBuffer.java:331)
    at org.apache.cassandra.io.util.MappedFileDataInput.readBytes(MappedFileDataInput.java:146)
    at org.apache.cassandra.utils.ByteBufferUtil.read(ByteBufferUtil.java:392)
    at org.apache.cassandra.utils.ByteBufferUtil.readWithShortLength(ByteBufferUtil.java:371)
    at org.apache.cassandra.io.sstable.IndexHelper$IndexInfo.deserialize(IndexHelper.java:187)
    at org.apache.cassandra.db.RowIndexEntry$Serializer.deserialize(RowIndexEntry.java:122)
    at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:970)
    at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:871)
    at org.apache.cassandra.db.columniterator.SSTableSliceIterator.<init>(SSTableSliceIterator.java:41)
    at org.apache.cassandra.db.filter.SliceQueryFilter.getSSTableColumnIterator(SliceQueryFilter.java:167)
    at org.apache.cassandra.db.filter.QueryFilter.getSSTableColumnIterator(QueryFilter.java:62)
    at org.apache.cassandra.db.CollationController.collectAllData(CollationController.java:250)
    at org.apache.cassandra.db.CollationController.getTopLevelColumns(CollationController.java:53)
    at org.apache.cassandra.db.ColumnFamilyStore.getTopLevelColumns(ColumnFamilyStore.java:1547)
    at org.apache.cassandra.db.ColumnFamilyStore.getColumnFamily(ColumnFamilyStore.java:1376)
    at org.apache.cassandra.db.Keyspace.getRow(Keyspace.java:327)
    at org.apache.cassandra.db.SliceFromReadCommand.getRow(SliceFromReadCommand.java:65)
    at org.apache.cassandra.db.ReadVerbHandler.doVerb(ReadVerbHandler.java:47)
    at org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:60)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:724)

解决方法:

您正在对多个分区使用“ IN”查询,因为可伸缩性是分区键的一部分.这导致cassandra在多个节点之间协调查询.有关更多详细信息,请参见例如this.

解决方案是对可伸缩性中的每个值运行一个单独的查询,然后手动合并结果或不使其成为分区键的一部分,即.主键((字段名,字段值),可伸缩性,timestamptdr)(如果可能).

标签：datastax,cql3,cassandra,out-of-memory,java
来源： https://codeday.me/bug/20191120/2042828.html