首页 > TAG信息列表 > sstable

Flink状态管理

大家好,我是小寒~ 原文链接: Flink的状态管理 2022 大数据学习路线图 在上一篇文章,我们分享了 FLink 中时间和窗口的相关技术细节,今天我们来分享一下 FLink 中的状态管理相关的内容。 状态管理 状态在 FLink 中叫作 State,用来保存中间计算结果或者缓存数据。 对于流计算而言,事

【翻译】ScyllaDB数据建模的最佳实践

文章翻译自Scylla官方文档:https://www.scylladb.com/2019/08/20/best-practices-for-data-modeling/ 转载请注明出处:https://www.cnblogs.com/morningli/p/16202131.html   在我们最新的夏季技术讲座系列网络研讨会上,ScyllaDB 现场工程师 Juliana Oliveira 指导虚拟与会者了解了

LevelDB 学习笔记3:合并策略

LevelDB 学习笔记3:合并策略 LSM 树常见的合并策略有两种: Leveled Compaction 和 Size-tiered Leveled Compaction LevelDB 和 Rocksdb 选择的合并策略叫 Leveled Compaction 每个 level 是有序的 sstable 内有序,多个 sstable 的 key 不重叠 每层有大小阈值 触发阈值后,选择至

《DDIA》读书笔记:SSTable and LSM Trees

目录Hash Index + logSSTable的特点处理读写请求与保证crash-safecompact和merge的策略 本文是第三章SSTable and LSM-Trees部分的读书笔记。 这部分包括的内容为 介绍如何用Hash Index与log组成key-value数据库,为了引入以SSTable作为log的实现 SSTable的特点 如何处理读写请求,如

cassandra-压缩策略

cassandra压缩策略 Cassandra的存储机制借鉴了Bigtable的设计,采用Memtable和SSTable的方式。和关系数据库一样,Cassandra在写数据之前,也需要先记录日志,称之为commitlog(数据库中的commit log 分为 undo-log, redo-log 以及 undo-redo-log 三类,由于 cassandra采用时间戳识别新老

BigTable论文翻译

摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到

设计数据密集型应用-存储与检索章节读书总结

               这一章节介绍了两大类存储引擎: 1、日志结构的存储引擎(log-structured) 2、面向页面的存储引擎(page-oriented),比如B树 拿最简单的append only的日志作为例子,引出存储和检索功能,为了加快查询速度,增加Hash索引,在内存中使用Hash映射来存储key-value在文件中的偏

基于LSM的Key-Value数据库实现初篇

  前篇文章对LSM的基本原理,算法流程做了简单的介绍,这篇文章将实现一个简单的基于LSM算法的迷你Key-Value数据库,结合上篇文章的理论与本篇文章的实践使之对LSM算法有更好的理解,当然此版本还有很大问题只是Demo模型,后面也会指出;   此LSMDB有支持常见的数据库四大功能:CURD(增删查

BigTable-列族存储

BigTable 其实就是 Google 设计的分布式结构化数据表. Bigtable 的设计动机: 需要存储的数据种类繁多,包括URL、网页内容、用户的个性化设置在内的数据都是Google需要经常处理的 需要存储的数据种类繁多海量的服务请求,Google运行着目前世界上最繁忙的系统,它每时每刻处理的客

数据结构考研复习(顺序查找&折半查找)

这部分内容和复习资料上写的不太一样,比如【哨兵】的存放位置,以及结果的呈现方式等。 需要注意的是折半查找要求数据有序顺序存储,所以要注意数据的输入。 顺序查找部分有个小bug,我暂时还没反应过来,具体表现为不能查找最后一个数据。 代码如下: #include <stdio.h> #define InitSize

Google Bigtable 简介

Google Bigtable 简介 Bigtable 本质是一个分布式 K-V 数据库,其主要目标就是数据的高性能读写。 分布式 ​ Bigtable 将整个大的表水平划分为多个 Tablet ,每个 Tablet 负责一定范围内的 Key 对应的数据,Bigtable 的服务节点称为 Tablet Server,每个 Tablet Server 中有若干个 Tablet

SSTable 与 LSM 引擎

SSTable 与 LSM 引擎 ​ 假设我们需要设计一个K-V数据库,为了提升 K-V 数据库的写性能,要尽量避免对磁盘上的内容做随机写,所以对已经持久化在磁盘上的 K-V 不做原地更改,当这个 Key 对应的 Value 发生更新或者删除时,我们仍然继续向磁盘新增一条数据,在读取时同一个 Key 以最后的数据记

联网数据库 IoTDB —— 存储引擎原理篇

前言 没过正月都是年,在此给大家拜个晚年,衷心的祝福诸位读者朋友们晚年幸福 : ) 新年伊始,谈谈今年的写作计划吧。 《联网数据库 IoTDB》开个新坑,起因是参加了《Apache IoTDB社区导师计划》,所以,为督促自己为社区尽一点绵薄之力。而且刚好选到了存储引擎和分布式两个有意思的方向,就

分布式数据库(十九):数据库的存储引擎

1. RUM 猜想 2. B+ Tree 3. LSM-Tree     3.1 LSM-Tree的处理过程     3.2 LSM-Tree的缺点     3.3 Leveled Compact Strategy 4. 分布式数据库的实现     4.1 OceanBase     4.2 TiDB:WiscKey     4.3 CockroachDB:Pebble     4.4  TiFlash 5. 

分布式——吞吐量巨强、Hbase的承载者 LSMT

今天是分布式系统的第九篇文章。 今天给大家分享的内容是LSM树,它的英文是Log-structed Merge-tree。看着有些发怵,但其实它的原理不难,和B树相比简直算是小儿科了。 并且这也是一个非常经典的数据结构,并且在大数据系统当中有非常广泛的应用。有许多耳熟能详的经典系统,底层就是基于LS

数据库的数据结构(2)——什么是SSTable.md

SSTabble的定义 SStable是排序字符串表,顺序存储key的key-value日志格式,要求每个key在合并的段文件中只出现一次(在压缩的过程中确保) SSTable相较于纯哈希索引日志段的优点 合并段更高效,支持文件大于可用内存 合并方法类似于归并排序,并发读取多个输入文件,比较每个文件的第一个k

LSM(Log Structured Merge Trees ) 笔记

目录一、大幅度制约存储介质吞吐量的原因二、传统数据库的实现机制三、LSM Tree的历史由来四、提高写吞吐量的思路4.1 一种方式是数据来后,直接顺序落盘4.2 另一种方式,是保证落盘的数据是顺序写入的同时,还保证这些数据是有序的五、 LSM Tree结构图5.1 写入时,为什么要先写一份log5.2

Cassandra 数据如何写入

数据如何写入? Apache Cassandra™(DDAC)数据库的DataStax分发在写入路径上的多个阶段处理数据,从立即记录写入开始,最后是将数据写入磁盘: 在提交日志中记录数据 将数据写入内存表 从内存表中刷新数据 在SSTables中的磁盘上存储数据   注意:所有写入的时间戳均为UTC(世界标准时间)。

sstableloader工具使用及原理解析

sstableloader是cassandra提供的bulkload工具,可以将sstable文件导入到集群中。本文详细介绍其用法和实现原理。 用法 sstableloader工具在cassandra的bin目录下面,用法如下: bin/sstableloader <options> <dir_path> 具体的选项可以参考官方文档的介绍,常见的选项有: -d, –nodes

[leveldb] Compaction

前文有述,对于LevelDb来说,写入记录操作很简单,删除记录仅仅写入一个删除标记就算完事,但是读取记录比较复杂,需要在内存以及各个层级文件中依照新鲜程度依次查找,代价很高。为了加快读取速度,levelDb采取了compaction的方式来对已有的记录进行整理压缩,通过这种方式,来删除掉一些不再有效的

三篇论文之bigtable

Bigtable:一个分布式的结构化数据存储系统 译者:alex   摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Big