首页 > 其他分享> > 速度提升十倍！教你一招搞定跨库查询的性能难题！

速度提升十倍！教你一招搞定跨库查询的性能难题！

2021-04-23 14:33:06 作者：互联网

作为大数据分析从业者，你是否经常苦恼为什么数据分析无法跟上节奏？尤其当跨库查询遇到大数据量，这些海量复杂的数据，会给数据分析、数据探索造成沉重的负担，数据量越大，反应则越慢，生成一个数据分析报告都耗费大半天的时间。

这种情况我们应该怎么解决呢？Smartbi利用高速缓存加速跨库查询，可以实现仪表盘打开速度10倍的提升！下面我们先来看一个实际效果对比：

在Smartbi体验中心的“体验式场景5”中，分析某公司的雇员数据情况时，其中的雇员表（300,024条记录）与薪资表（2,844,047条记录）进行跨库关联，使用高速缓存之前刷新数据至少要20秒；当数据抽取到高速缓存库后，切换年份刷新仅需2秒，甚至更快。

未使用高速缓存加速前，仪表盘打开20秒：

在这里插入图片描述

未使用高速缓存加速前，仪表盘打开2秒：

在这里插入图片描述

那么Smartbi是如何做到呢？下面跟小麦一起学习吧！（喜欢的小伙伴也可以登陆Smartbi官网观看视频学习噢~）

跨库加速原理说明

思迈特软件Smartbi通过提供跨库联合数据源来支持直接的跨库查询。跨库联合数据源是系统内置数据源，系统自动将新建的关系数据源信息添加到该跨库联合数据源中，或通过数据库关联界面将需要的数据源手动添加，进行跨库查询时使用。

在这里插入图片描述

当跨库数据源应用在数据集中时，一旦数据达到某个级别之后，报表性能就会出现很大的一个瓶颈，比如很长时间刷新不出、系统崩溃等。为了应对数据处理性能问题，Smartbi研发出高速缓存机制，它使用分布式的内存计算技术，在进行数据分析的时候，允许将原始库数据抽取到高速缓存中再进行分析，解决性能瓶颈，实现报表加速。并且可以根据用户的实际情况，选择不同的高速缓存方案。

在这里插入图片描述

高速缓存机制

高速缓存的基本原理就是将频繁访问的数据保存在相对能够快速存取的高速缓冲区域中，以避免在复杂的数据文件中寻找。由于高速缓存库中保存了数据副本，可以方便用户程序更高效地访问数据，并且减轻了数据库的工作量，增强了系统的性能和可伸缩性。目前产品支持高速缓存库的类型包括：SmartbiMPP、Presto+Hive、星环、Vertica、Infobright等。

我们在Smartbi的高速缓存库中采用了缓存技术，也叫“对象缓冲池”，用于缓存系统中用到的数据集定义及最近使用的查询结果等。产品的对象池是存储在内存中，对象缓冲池可以增强系统在并发时的性能，减少服务器的压力，提高用户报表查询速度。

数据抽取机制

Smartbi通过“数据抽取”将源数据库中的数据抽取到高速缓存库，保证秒级获取大级别量的数据结果，以提高系统性能。数据抽取功能的机制如下：

确定好数据集或分析的结果字段。

发起数据抽取指令，从源数据库中将字段的所有数据抽取到高速缓存库，在高速缓存库的“DEFAULT”节点下生成对应的视图和字段。

再次查询当前数据集或分析的数据时，从高速缓存库获取数据。

在这里插入图片描述