首页 > 其他分享> > Doris-bitmap的应用场景

Doris-bitmap的应用场景

2021-12-12 21:59:45 作者：互联网

Doris count 的精确去重

去重的常规的方法

堆机器
Cache
优化 CPU 执行引擎 (向量化，SIMD，查询编译等)
支持 GPU 执行引擎
预计算

聚合指标必须支持上卷，去重指标要支持上卷聚合，就必须保留明细，不能只保存一个最终的去重值，所以考虑引入bitmap

优点：

1，查询时io，cpu，内存，网络资源显著减少，不会随着数据规模线性增加

存在的问题

1，内存和存储的消耗

2，只支持int类型

解决的办法

1，压缩，业界普遍采用的bitmap库是Roaring Bitmap

Roaring Bitmap 核心思路，就是根据数据的不同特征采用不同的存储或者压缩方式

2，将其他类型映射成int

在做字典映射时，使用比较广泛的数据结构是 Trie 树。Trie 树又叫前缀树或字典树。

这种方案中全局字典本身是一张 Hive 表，Hive 表有两个列，一个是原始值，一个是编码的 Int 值，然后通过上面的 4 步就可以通过 Spark 或者 MR 实现全局字典的更新，和对事实表中 Value 列的替换。

基于 Hive 表的全局字典相比基于 Trie 树的全局字典的优点除了可以分布式化，还可以实现全局字典的复用。但是缺点也是显而易见，相比基于 Trie 树的全局字典，会使用多几倍的资源，因为原始事实表会被读取多次，而且还有两次 Join。

Doris bitmap 具体使用

计算pv，为了更好的加速效果建 rollup

CREATE TABLE `bitmap2pv` (
`dt` int(10),
`page` varchar(255),
`userId` bitmap bitmap_union
)
AGGREGATE KEY(`dt`, page)
DISTRIBUTED BY HASH(`dt`) BUCKETS 100;

ALTER TABLE bitmap2pv ADD ROLLUP pv (page, userId);

查询：

select bitmap_count(bitmap_union(userId)) from bitmap2pv;

select bitmap_union_count(userId) from bitmap2pv;

select bitmap_union_int(id) from bitmap2pv

BITMAP_UNION(expr) : 计算两个 Bitmap 的并集，返回值是序列化后的 Bitmap 值 BITMAP_COUNT(expr) : 计算 Bitmap 的基数值 BITMAP_UNION_COUNT(expr): 和 BITMAP_COUNT(BITMAP_UNION(expr)) 等价 BITMAP_UNION_INT(expr) : 和 COUNT(DISTINCT expr) 等价 (仅支持 TINYINT,SMALLINT 和 INT)

插入：

insert into bitmap_table1 (id, id2) VALUES (1001, to_bitmap(1000)), (1001, to_bitmap(2000));

insert into bitmap_table1 select id, bitmap_union(id2) from bitmap_table2 group by id;

insert into bitmap_table1 select id, bitmap_hash(id_string) from table;

Doris bitmap在用户行为分析上的应用

模型：

Who(谁)、What(做了什么行为)、When(什么时间)、Where(在哪里)、Why(目的是什么)、How(通过什么方式)，How much (用了多长时间、花了多少钱)。

一般为一张event（行为日志表），一张profile（用户信息表）

实现方式：

1，数据库join

2，基于明细数据的 UDAF实现

3，基于bitmap的 UDAF实现

可以用 1 个 bit 位表示一个用户，那么 Bitmap 的交，并，差，对称差集等运算都可以和大多数用户行为模型对应起来，并且 Bitmap 的交，并，差，对称差集运算可以借助 SIMD 指令加速，是很高效的。

标签：场景,expr,Bitmap,bitmap,BITMAP,id,Doris,字典
来源： https://blog.csdn.net/qq_38316704/article/details/121893823