其他分享
首页 > 其他分享> > HBase第一天学习

HBase第一天学习

作者:互联网

HBase第一天学习     HBase的访问方式         进入退出:hbase shell    exit         shell实现DDl操作             创建一个表:create 'member','member_id','address','info'             获得表的描述:list(查看所有的表)   describe ‘member’(查看member表的详细信息)             删除一个列簇:alter、disable、enable。    alter 'member',{NAME=>'member_id',METHOD=>'delete'}             drop一个表:create 'temp_table','member_id','address','info'                        disable 'temp_table'               查看表是否存在:exists ‘member’             查看文件的存储路径:hdfs dfs -ls /yjx/hbase/data/default/t1         shell实现DMl操作:put(插入数据):put'member','guojing','info:age','24'             删除id为temp的值'info:age'字段:delete 'member','temp','info:age'             将整张表清空;truncate 'member'             可以使用count命令计算表的行数量:count 'member'         Shell实现DQL操作             获取一个id的所有数据:get 'member','linghuchong'             获取一个id,一个列族的所有数据:get 'member','linghuchong','info'             获取一个id,一个列族中一个列的所有数据:get 'member','linghuchong','info:age'             全表扫描:scan 'member'         Shell实现Region管理             移动region:move 'encodeRegionName', 'ServerName'             开启/关闭redion:balance_switch true|false             手动spilt:spilt 'regionName','spiltKey'             压缩整个区域:major_compact 'r1'             在region中它说单列簇:major_compact 'r1','c1'             在表中压缩单列族:major_compact 't1','c1'     HBase架构模型         Client:客户端             负责将请求发送到数据库,客户端连接的方式有很多:hbase shell、类JDBC             发送的请求主要包括:                 DDl:数据库定义语言(表的建立、删除、添加删除列簇,控制版本)                 DMl:数据库操作语言(增删改)                 DQL:数据库查询语言(查询--全表扫描--基于主键--基于过滤器)             client维护着一些cache来加快对hbase的访问,比如regione的位置信息         HBase有三个主要的组成部分:客户端库、主服务器和区域服务器         HMaster             HBase集群的主节点,HMaster也可以实现高可用(active-standby):通过zookeeper来维护祝福节点的切换             为Region server分配region并负责region server的负载均衡             管理用户对table的结构DDL(创建、删除、修改)操作:表的元数据信息-->zookeeper上面、表的数据-->HRegionServer上             当HRegionServer下线的时候,HMaster会将当前HRegionServer上的Region转移到其他的HRegionServer         zookeeper             保证在任何时候,集群都只有一个master             存储所有Region的寻址入口,存储所有的元数据信息             实时监控Region server的状态,将Region Server的上线和下线信息实时通知给Master             存储HBase的schema,包括有哪些table,每个table有哪些column family         HRegionServer             Region server是属于HBase具体数据的管理者             Region server 维护Master分配给他的region,处理对这些region的io请求             会实时的和HMaster保持心跳,汇报当前节点的信息             当接受到Hmaster命令创建表的时候,分配一个Region对应一张表             Region Server负责切分在运行过程中变得过大的Region             当客户端发送的DMl和DQL操作时,HRegionServer负责和客户端建立连接             当意外关闭的时候,当前节点的Region会被其他HRegionServer管理         HRegion             HRegion是HBase中分布式存储和负载均衡的最小单元,最小单元就表示不同的HRegion可以分布在不同的HRegion server上             HBase自动把表水平划分成多个区域(region),每个区域会保存一个表里面某段连续的数据             每个表一开始只有一个region,一个region只属于一张表,随着数据不断插入表,region不断增大             Region达到阈值10G的时候会被平分(逻辑上平分,尽量保证数据的完整性):hbase.hregion.max.filesize、切分后的其中一个Region转移到其他的HRegionServer上管理             当table中的行不断增多,就会有越来越多的region,这样一张完整的表就被保存在多个RegionServer             为了防止前期数据的处理都集中在一个HRegionServer,我们可以根据自己的业务进行预分区         Store             HRegion是表获取和分布的基本元素,由一个或者多个Store组成,每个store保存一个columns family             每个Store又由一个memStore和0个或者多个StoreFile组成             HFile是HBase在HDFS中存储数据的格式,它包含多层的索引,这样在Hbase检索数据的时候就不用完全加载整个文件了。             索引的大小(key的大小,数据量的大小影响block的大小,在大数据集群的情况下,blcok的大小设置为每个RegionServer 1G也是很常见的)         StoreFile             Data Block段-保存表中数据,这部分可以被压榨             Meta Blocks段(可选的)-保护用户自定义的kv对,可以被压缩             File info 段-Hfile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息             Data Block Index段-Data Block的索引,每条索引的key是被索引的block的第一条记录的key             Meta Block index段(可选的)-Meta blcok的索引             Trailer-这一段是定长的                 保存了每一段的偏移量,读取一个HFile时,会首先读取Trailer Trailer保存了每个段的起始位置(段的Magic Number用来做安全check) 然后,DataBlock Index会被读取到内存中,当检索某个key时,不需要扫描整个HFile,而只 需从内存中找到key所在的block 通过一次磁盘io将整个 block读取到内存中,再找到需要的key。DataBlock Index采用LRU机 制淘汰。         MemStore             HFile中并没有任何Block,数据首先存在于MemStore中。Flush发生时,创建HFile Writer             当操作数据得时候,第一个空的Data Block初始化,初始化后的Data Block中为Header部分预留了空间             Header部分用来存放一个Data Block的元数据信息             位于MemStore中的KeyValues被一个个append到位于内存中的第一个Data Block中: 如果配置了Data Block Encoding,则会在Append KeyValue的时候进行同步编码,编码后的 数据不再是单纯的KeyValue模式。 Data Block Encoding是HBase为了降低KeyValue结构性膨胀而提供的内部编码机制。         Hlog             一个HRegionServer只有一个Log文档             WAL(Write After Log)做任何操作之前先写日志             HLog文件就是一个普通的Hadoop Sequence File,SequeceFile的Key是HLogKey对象, HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp timestamp是” 写入时间”, sequence number的起始值为0,或者是最近一次存入文件系统中sequence number。 SequeceFile的Value是HBase的KeyValue对象,即本次的操作。 日志直接存放到HDFS上             当memStore达到阈值的时候开始写出到文件之后,会在日志中对应的位置标识一个检查点             WAL记录所有的Hbase数据改变,如果一个RegionServer在MemStore进行FLush的时候挂掉了, WAL可以保证数据的改变被应用到。如果写WAL失败了,那么修改数据的完整操作就是失败的。 通常情况,每个RegionServer只有一个WAL实例。在2.0之前,WAL的实现叫做HLog WAL位于/hbase/WALs/目录下 MultiWAL: 如果每个RegionServer只有一个WAL,由于HDFS必须是连续的,导致必须写WAL 连续的,然后出现性能问题。MultiWAL可以让RegionServer同时写多个WAL并行的,通过 HDFS底层的多管道,最终提升总的吞吐量,但是不会提升单个Region的吞吐量。             WAL的配置: // 启用multiwal <property> <name>hbase.wal.provider</name> <value>multiwal</value> </property>     HBase读写流程         公共流程(三层索引)             HBase中单表的数据量通常可以达到TB级或PB级,但大多数情况下数据读取可以做到毫秒级。 HBase是如何做到的呢?要想实现表中数据的快速访问,通用的做法是数据保持有序并尽可能的将 数据保存在内存里。HBase也是这样实现的。             对于海量级的数据,首先要解决存储的问题。数据存储上,HBase将表切分成小一点的数据单位 region,托管到RegionServer上,和以前关系数据库分区表类似。但比关系数据库分区、分库易 用。这一点在数据访问上,HBase对用户是透明的。数据表切分成多个Region,用户在访问数据 时,如何找到该条数据对应的region呢?          HBase 0.96以前             有两个特殊的表,-Root-和.Meta. ,用来查找各种表的region位置在哪里。-Root-和.Meta.也像 HBase中其他表一样会切分成多个region。-Root-表比.Meta更特殊一些,永远不会切分超过一个 region。-ROOT-表的region位置信息存放在Zookeeper中,通过Zookeeper可以找到-ROOTregion托管的RegionServer。通过-ROOT-表就可以找到.META.表region位置。.META表中存放着 表切分region的信息。             当客户端访问一个表的时候,首先去询问Zookepper Zookepper会告诉客户端-root-Region所在的RegionServer             公共表.meta. 是一张普通表,但是由HBase自己维护 它的机构和meta一模一样,但是它只维护meta表的切分信息 理论上-root-表不会被切分(数据量)         HBase 0.96以后             -ROOT-表被移除,直接将.Meta表region位置信息存放在Zookeeper中。Meta表更名为 hbase:meta,部分内容如下             查询流程 Client--------->zookeeper-------->hbase:meta--------->用户表region         读取数据流程             01Client访问zookeeper,获取hbase:meta所在RegionServer的节点信息             02Client访问hbase:meta所在的RegionServer,获取hbase:meta记录的元数据后先加载到内存 中,然后再从内存中根据需要查询的RowKey查询出RowKey所在的Region的相关信息(Region所 在RegionServer)             03Client访问RowKey所在Region对应的RegionServer,发起数据读取请求             04RegionServer构建RegionScanner(需要查询的RowKey分布在多少个Region中就需要构建多少 个RegionScanner),用于对该Region的数据检索             05RegionScanner构建StoreScanner(Region中有多少个Store就需要构建多少个StoreScanner, Store的数量取决于Table的ColumnFamily的数量),用于对该列族的数据检索             06多个StoreScanner合并构建最小堆(已排序的完全二叉树)StoreHeap:PriorityQueue             07StoreScanner构建一个MemStoreScanner和一个或多个StoreFileScanner(数量取决于 StoreFile数量)             08过滤掉某些能够确定所要查询的RowKey一定不在StoreFile内的对应的StoreFileScanner或 MemStoreScanner             09经过筛选后留下的Scanner开始做读取数据的准备,将对应的StoreFile定位到满足的RowKey的 起始位置             10将所有的StoreFileScanner和MemStoreScanner合并构建最小堆 KeyValueHeap:PriorityQueue,排序的规则按照KeyValue从小到大排序             11从KeyValueHeap:PriorityQueue中经过一系列筛选后一行行的得到需要查询的KeyValue。         写入数据流程             首先客户端和RegionServer建立连接             然后将DML要做的操作写入到日志wal-log             然后将数据的修改更新到memstore中,然后本次操作结束 一个region由多个store组成,一个store对应一个CF(列族),store包括位于内存中的 memstore和位于磁盘的storefile,写操作先写入memstore.             当memstore数据写到阈值之后,创建一个新的memstore             旧的memstore写成一个独立的storefile,regionserver会启动flashcache进程写入storefile,每次 写入形成单独的一个storefile,存放到hdfs             当storefile文件的数量增长到一定阈值后,系统会进行合并(minor compaction、major compaction)             在合并过程中会进行版本合并和删除工作,形成更大的storefile             当一个region所有storefile的大小和数量超过一定阈值后,会把当前的region分割为两个,并由 hmaster分配到相应的regionserver服务器,实现负载均衡             Store负责管理当前列族的数据 1memstore+nstorefile             当我们进行数据DML的时候,以插入数据为例 我们会将数据先存储到memStore中,当memStore达到阈值(128M) 首先创建一个新的memstore 然后会将memStore中的数据写成一个storefile,storefile会存储到hdfs上(hfile)             随着时间的推移: HFile中会存放大量的失效数据(删除,修改) 会产生多个HFile 等达到阈值(时间、数量)会进行合并 多个HFile合并成一个大的HFile 合并会触发连锁反应,相邻的store也会进行合并             在Hbase中,表被分割成多个更小的块然后分散的存储在不同的服务器上,这些小块叫做 Regions,存放Regions的地方叫做RegionServer。Master进程负责处理不同的RegionServer之间 的Region的分发。在Hbase实现中HRegionServer和HRegion类代表RegionServer和Region。 HRegionServer除了包含一些HRegions之外,还处理两种类型的文件用于数据存储 HLog 预写日志文件,也叫做WAL(write-ahead log) HFile 是HDFS中真实存在的数据存储文件     数据刷写(MemStore Flush)         触发时机             Region 中所有 MemStore 占用的内存超过相关阈值 hbase.hregion.memstore.flush.size 参数控制,默认为128MB 如果我们的数据增加得很快, 达到了 hbase.hregion.memstore.flush.size * hbase.hregion.memstore.block.multiplier 的大小,hbase.hregion.memstore.block.multiplier 默认值为4, 也就是128*4=512MB的时候, 那么除了触发 MemStore 刷写之外,HBase 还会在刷写的时候同时阻塞所有写入该 Store 的 写请求!             整个 RegionServer 的 MemStore 占用内存总和大于相关阈值 HBase 为 RegionServer 所有的 MemStore 分配了一定的写缓存(),大小等于 hbase_heapsize(RegionServer 占用的堆内存大小)* hbase.regionserver.global.memstore.size(默认值是 0.4)。 如果整个 RegionServer 的 MemStore 占用内存总和大于阈值将会触发 MemStore 的刷写。 hbase.regionserver.global.memstore.size.lower.limit (默认值为 0.95)* MAX_SIZE 例如:HBase 堆内存总共是 32G ,MemStore 占用内存为:32 * 0.4 * 0.95 = 12.16G将触发 刷写 如果达到了 RegionServer 级别的 Flush,当前 RegionServer 的所有写操作将会被阻塞,这 个阻塞可能会持续到分钟级别             WAL数量大于相关阈值 数据到达 Region 的时候是先写入 WAL,然后再被写到 Memstore 。如 果 WAL 的数量越来越大,这就意味着 MemStore 中未持久化到磁盘的数据越来越多。 当 RS 挂掉的时候,恢复时间将会变得很长,所以有必要在 WAL 到达一定的数量时进行一次 刷写操作             定期自动刷写 hbase.regionserver.optionalcacheflushinterval 默认值 3600000(即 1 小时),HBase 定期 Flush 所有 MemStore 的时间间隔。 一般建议调大,比如 10 小时,因为很多场景下 1 小时 Flush 一次会产生很多小文件,一方 面导致 Flush 比较频繁,另一方面导致小文件很多,影响随机读性能             数据更新超过一定阈值 如果 HBase 的某个 Region 更新的很频繁,而且既没有达到自动刷写阀值,也没有达到内存 的使用限制,但是内存中的更新数量已经足够多, 比如超过 hbase.regionserver.flush.per.changes 参数配置,默认为30000000,那么也是会 触发刷写的。             手动触发刷写 Shell 中通过执行 flush 命令             特别注意: 以上所有条件触发的刷写操作最后都会检查对应的 HStore 包含的 StoreFiles 文件数是否超过 hbase.hstore.blockingStoreFiles 参数配置的个数,默认值是16。 如果满足这个条件,那么当前刷写会被推迟到hbase.hstore.blockingWaitTime 参数设置的时 间后再刷写。 在阻塞刷写的同时,HBase 还会请求 Compaction 或者Split 操作。         刷写策略             prepareFlush 阶段: 刷写的第一步是对 MemStore 做 snapshot, 为了防止刷写过程中更新的数据同时在 snapshot 和 MemStore 中而造成后续处理的困难, 所以在刷写期间需要持有 updateLock 。持有了 updateLock 之后,这将阻塞客户端的写操 作。 所以只在创建 snapshot 期间持有 updateLock,而且 snapshot 的创建非常快,所以此锁期间对客户的影响一般非常小。 对 MemStore 做 snapshot 是 internalPrepareFlushCache 里面进行的。             flushCache 阶段: 如果创建快照没问题, 那么返回的 result.result 将为 null。 这时候我们就可以进行下一步 internalFlushCacheAndCommit。 其实 internalFlushCacheAndCommit 里面包含两个步骤:flushCache 和 commit 阶段。 flushCache 阶段: 其实就是将 prepareFlush 阶段创建好的快照写到临时文件里面, 临时文件是存放在对应 Region 文件夹下面的 .tmp 目录里面。 commit 阶段: 将 flushCache 阶段生产的临时文件移到(rename)对应的列族目录下面, 并做一些清理工作,比如删除第一步生成的 snapshot。     数据合并         合并分类             HBase 根据合并规模将 Compaction 分为了两类:MinorCompaction 和 MajorCompaction             Minor Compaction 是指选取一些小的、相邻的StoreFile将他们合并成一个更大的StoreFile,在这个过程中不会 处理已经Deleted或Expired的Cell 但是会处理超过TTL的数据 一次Minor Compaction的结果是让小的storefile变的更少并且产生更大的StoreFile。             Major Compaction 是指将所有的StoreFile合并成一个StoreFile 清理三类无意义数据:被删除的数据、TTL过期数据、版本号超过设定版本号的数据。 一般情况下,Major Compaction时间会持续比较长,整个过程会消耗大量系统资源,对上层 业务有比较大的影响。因此线上业务都会将关闭自动触发Major Compaction功能,改为手动 在业务低峰期触发         合并时机             触发compaction的方式有三种:Memstore刷盘、后台线程周期性检查、手动触发             Memstore刷盘 memstore flush会产生HFile文件,文件越来越多就需要compact。 每次执行完Flush操作之后,都会对当前Store中的文件数进行判断,一旦文件数大于配置,就 会触发compaction。 compaction都是以Store为单位进行的,而在Flush触发条件下,整个Region的所有Store都 会执行compact             后台线程周期性检查 后台线程定期触发检查是否需要执行compaction,检查周期可配置。 hbase.server.thread.wakefrequency(默认10000毫秒) *hbase.server.compactchecker.interval.multiplier(默认1000) CompactionChecker大概是2hrs 46mins 40sec 执行一次 线程先检查文件数是否大于配置,一旦大于就会触发compaction。 如果不满足,它会接着检查是否满足major compaction条件, 如果当前store中hfile的最早更新时间早于某个值mcTime, 就会触发major compaction(默认7天触发一次,可配置手动触发)。             手动触发 一般来讲,手动触发compaction通常是为了执行major compaction,一般有这些情况需要手 动触发合并 是因为很多业务担心自动major compaction影响读写性能,因此会选择低峰期手动触 发; 也有可能是用户在执行完alter操作之后希望立刻生效,执行手动触发major compaction; 是HBase管理员发现硬盘容量不够的情况下手动触发major compaction删除大量过期数 据;          合并策略             承载了大量IO请求但是文件很小的HFile,compaction本身不会消耗太多IO,而且合并完成之后对读的 性能会有显著提升。 线程池选择 HBase CompacSplitThread类内部对于Split、Compaction等操作专门维护了各自所使用的 线程池 和Compaction相关的是如下的longCompactions和shortCompactions 前者用来处理大规模compaction,后者处理小规模compaction 默认值为2 * maxFlilesToCompact * hbase.hregion.memstore.flush.size 如果flush size 大小是128M,该参数默认值就是2 * 10 * 128M = 2.5G             合并策略选择 1.HBase 主要有两种 minor 策略: RatioBasedCompactionPolicy (0.96.x之前)和 ExploringCompactionPolicy(当前默认) 2.RatioBasedCompactionPolicy(基于比列的合并策略) 从老到新逐一扫描HFile文件,满足以下条件之一停止扫描 当前文件大小<比当前文件新的所有文件大小总和*ratio(高峰期1.2,非高峰期5) 当前所剩候选文件数<=阈值(默认为3) 3.ExploringCompactionPolicy策略(默认策略)  基于Ratio策略,不同之处在于Ratio策略找到一个合适文件集合就停止扫描,而Exploring策略 会记录所有合适的文件集合,然后寻找最优解,待合并文件数最多或者待合并文件数相同的情况下 文件较小的进行合并  4.FIFO Compaction策略 收集过期文件并删除,对应业务的列簇必须设置有TTL 5.Tier-Based Compaction策略(分层策略) 针对数据热点情况设计的策略,根据候选文件的新老程度将其划分为不同的等级,每个等级都有对 应的Ratio,表示该等级文件比选择为参与Compation的概率 6.Stripe Compation策略(条纹策略) 将整个Store中的文件按照key划分为多个range,此处称为stripe,一个Stripe内部就类似于 一个小Region,可以执行Minon Compation和major Compation             执行文件合并 分别读出待合并hfile文件的KV,并顺序写到位于./tmp目录下的临时文件中 将临时文件移动到对应region的数据目录 将compaction的输入文件路径和输出文件路径封装为KV写入WAL日志,并打上compaction 标记,最后强制执行sync 将对应region数据目录下的compaction输入文件全部删除     数据切分(Region Spilt)         通过切分,一个region变为两个近似相同大小的子region,再通过balance机制均衡到不同 region server上,使系统资源使用更加均衡。         切分原因             数据分布不均匀。 同一 region server 上数据文件越来越大,读请求也会越来越多。一旦所有的请求都落在同一 个 region server 上,尤其是很多热点数据,必然会导致很严重的性能问题。             compaction性能损耗严重。 compaction本质上是一个排序合并的操作,合并操作需要占用大量内存,因此文件越大,占 用内存越多 compaction有可能需要迁移远程数据到本地进行处理(balance之后的compaction就会存在 这样的场景),如果需要迁移的数据是大文件的话,带宽资源就会损耗严重。             资源耗费严重 HBase的数据写入量也是很惊人的,每天都可能有上亿条的数据写入 不做切分的话一个热点region的新增数据量就有可能几十G,用不了多长时间大量读请求就会 把单台region server的资源耗光。         触发时机             每次数据合并之后都会针对相应region生成一个requestSplit请求,requestSplit首先会执行 checkSplit,检测file size是否达到阈值,如果超过阈值,就进行切分。             检查阈值算法主要有两种:ConstantSizeRegionSplitPolicy( 0.94版本)和 IncreasingToUpperBoundRegionSplitPolicy(当前)             ConstantSizeRegionSplitPolicy : 系统会遍历region所有store的文件大小,如果有文件大小 > hbase.hregion.max.filesize(默 认10G),就会触发切分操作。             IncreasingToUpperBoundRegionSplitPolicy: 如果store大小大于一个变化的阀值就允许split。 默认只有1个region,那么逻辑这个region的store大小超过 1 * 1 * 1 * flushsize * 2 = 128M * 2 =256M 时,才会允许split 切分之后会有两个region,其中一个region中的某个store大小大于 2 * 2 * 2 * flushsize * 2 = 2048M 时,则允许split 后续超过hbase.hregion.max.filesize + hbase.hregion.max.filesize * 随机小数 * hbase.hregion.max.filesize.jitter才允许split 基本也就固定了,如果粗劣的计算可以把这个hbase.hregion.max.filesize的大小作为最后的 阀值,默认是10G         切分流程             寻找切分点 将一个region切分为两个近似大小的子region,首先要确定切分点。切分操作是基于region执 行的,每个region有多个store(对应多个column famliy)。系统首先会遍历所有store,找 到其中最大的一个,再在这个store中找出最大的HFile,定位这个文件中心位置对应的 rowkey,作为region的切分点。             开启切分事务 切分线程会初始化一个SplitTransaction对象,从字面上就可以看出来split流程是一个类似‘事 务’的过程,整个过程分为三个阶段:prepare - execute - rollback prepare阶段 在内存中初始化两个子region,具体是生成两个HRegionInfo对象,包含tableName、 regionName、startkey、endkey等。同时会生成一个transaction journal,这个对象 用来记录切分的进展 execute 阶段 region server 更改ZK节点 /region-in-transition 中该region的状态为SPLITING。 master检测到region状态改变。 region在存储目录下新建临时文件夹.split保存split后的daughter region信息。 parent region关闭数据写入并触发flush操作,将写入region的数据全部持久化到磁盘。 在.split文件夹下新建两个子文件夹,称之为daughter A、daughter B,并在文件夹中生 成引用文件,分别指向父region中对应文件。 将daughter A、daughter B拷贝到HBase根目录下,形成两个新的region。 parent region通知修改 hbase.meta 表后下线,不再提供服务。 开启daughter A、daughter B两个子region。 通知修改 hbase.meta 表,正式对外提供服务。 rollback阶段 如果execute阶段出现异常,则执行rollback操作。 为了实现回滚,整个切分过程被分为很多子阶段,回滚程序会根据当前进展到哪个子阶 段清理对应的垃圾数据。

标签:第一天,Region,学习,RegionServer,region,hbase,数据,HBase
来源: https://blog.csdn.net/Abaiyu321/article/details/121367570