首页 > 其他分享> > Hudi特性之表格式 (1)

Hudi特性之表格式 (1)

2022-01-03 13:35:54 作者：互联网

在大数据中扮演重要角色的Hudi，其表格式和查询方式有何特殊之处？他是怎样进行数据的插入更新处理？
首先，Hudi有两种处理数据的表格式：
COW(Copy On Write)
MOR(Merge On Read)

1、COW(Copy On Write)

支持快照查询，增量查询，读优化查询
使用柱状(如parquet) +基于行(如avro)的文件格式组合存储数据。
处理数据过程：每次upsert时会生成一个delta日志，将每个文件的更新数据存储到日志中，在查询时将日志应用到每个文件 ID 来支持快照查询。
因此，这种表类型会平衡读和写放大，以提供接近实时的数据。
在读表上进行合并的目的是直接在DFS之上支持接近实时的处理，而不是将数据复制到可能无法处理数据量的系统。

以一次数据的insert和updata为例。我利用hudi在插入一次mor格式的表保存hive和hdfs，修改数据对表进行更新updata，在hadoop的50075端口中浏览文件，可以看到如下图

第一行数据就是生成的log,在进行查询读取时，会将log与数据文件合并读取，提供实时的数据。

标签：文件,Hudi,之表,更新,查询,快照,格式,数据
来源： https://blog.csdn.net/weixin_52268321/article/details/122285810