其他分享
首页 > 其他分享> > Doris-bitmap的应用场景

Doris-bitmap的应用场景

作者:互联网

Doris count 的精确去重

去重的常规的方法

  1. 堆机器
  2. Cache
  3. 优化 CPU 执行引擎 (向量化,SIMD,查询编译等)
  4. 支持 GPU 执行引擎
  5. 预计算

 聚合指标必须支持上卷,去重指标要支持上卷聚合,就必须保留明细,不能只保存一个最终的去重值,所以考虑引入bitmap

优点:

1,查询时io,cpu,内存,网络资源显著减少,不会随着数据规模线性增加

存在的问题 

1,内存和存储的消耗

2,只支持int类型

解决的办法

1,压缩,业界普遍采用的bitmap库是Roaring Bitmap 

Roaring Bitmap 核心思路,就是根据数据的不同特征采用不同的存储或者压缩方式

 

2,将其他类型映射成int 

在做字典映射时,使用比较广泛的数据结构是 Trie 树。Trie 树又叫前缀树或字典树。

 

这种方案中全局字典本身是一张 Hive 表,Hive 表有两个列,一个是原始值,一个是编码的 Int 值,然后通过上面的 4 步就可以通过 Spark 或者 MR 实现全局字典的更新,和对事实表中 Value 列的替换。

基于 Hive 表的全局字典相比基于 Trie 树的全局字典的优点除了可以分布式化,还可以实现全局字典的复用。 但是缺点也是显而易见,相比基于 Trie 树的全局字典,会使用多几倍的资源,因为原始事实表会被读取多次,而且还有两次 Join。

Doris bitmap 具体使用

计算pv, 为了更好的加速效果建 rollup

CREATE TABLE `bitmap2pv` (
`dt` int(10),
`page` varchar(255),
`userId` bitmap bitmap_union
)
AGGREGATE KEY(`dt`, page)
DISTRIBUTED BY HASH(`dt`) BUCKETS 100;

ALTER TABLE bitmap2pv ADD ROLLUP pv (page, userId);

查询:

select bitmap_count(bitmap_union(userId)) from bitmap2pv;

select bitmap_union_count(userId) from bitmap2pv;

select bitmap_union_int(id) from bitmap2pv

BITMAP_UNION(expr) : 计算两个 Bitmap 的并集,返回值是序列化后的 Bitmap 值 BITMAP_COUNT(expr) : 计算 Bitmap 的基数值 BITMAP_UNION_COUNT(expr): 和 BITMAP_COUNT(BITMAP_UNION(expr)) 等价 BITMAP_UNION_INT(expr) : 和 COUNT(DISTINCT expr) 等价 (仅支持 TINYINT,SMALLINT 和 INT) 

插入:

insert into bitmap_table1 (id, id2) VALUES (1001, to_bitmap(1000)), (1001, to_bitmap(2000));

insert into bitmap_table1 select id, bitmap_union(id2) from bitmap_table2 group by id;

insert into bitmap_table1 select id, bitmap_hash(id_string) from table;

Doris bitmap在用户行为分析上的应用

模型:

Who(谁)、What(做了什么行为)、When(什么时间)、Where(在哪里)、Why(目的是什么)、How(通过什么方式),How much (用了多长时间、花了多少钱)。

一般为一张event(行为日志表),一张profile(用户信息表)

实现方式:

1,数据库join

2,基于明细数据的 UDAF实现

3,基于bitmap的 UDAF实现

可以用 1 个 bit 位表示一个用户,那么 Bitmap 的交,并,差,对称差集等运算都可以和大多数用户行为模型对应起来,并且 Bitmap 的交,并,差,对称差集运算可以借助 SIMD 指令加速,是很高效的。

标签:场景,expr,Bitmap,bitmap,BITMAP,id,Doris,字典
来源: https://blog.csdn.net/qq_38316704/article/details/121893823