其他分享
首页 > 其他分享> > 速度提升十倍!教你一招搞定跨库查询的性能难题!

速度提升十倍!教你一招搞定跨库查询的性能难题!

作者:互联网

作为大数据分析从业者,你是否经常苦恼为什么数据分析无法跟上节奏?尤其当跨库查询遇到大数据量,这些海量复杂的数据,会给数据分析、数据探索造成沉重的负担,数据量越大,反应则越慢,生成一个数据分析报告都耗费大半天的时间。

这种情况我们应该怎么解决呢?Smartbi利用高速缓存加速跨库查询,可以实现仪表盘打开速度10倍的提升!下面我们先来看一个实际效果对比:

在Smartbi体验中心的“体验式场景5”中,分析某公司的雇员数据情况时,其中的雇员表(300,024条记录)与薪资表(2,844,047条记录)进行跨库关联,使用高速缓存之前刷新数据至少要20秒;当数据抽取到高速缓存库后,切换年份刷新仅需2秒,甚至更快。

未使用高速缓存加速前,仪表盘打开20秒:

在这里插入图片描述

未使用高速缓存加速前,仪表盘打开2秒:

在这里插入图片描述

那么Smartbi是如何做到呢?下面跟小麦一起学习吧!(喜欢的小伙伴也可以登陆Smartbi官网观看视频学习噢~)

跨库加速原理说明

思迈特软件Smartbi通过提供跨库联合数据源来支持直接的跨库查询。跨库联合数据源是系统内置数据源,系统自动将新建的关系数据源信息添加到该跨库联合数据源中,或通过数据库关联界面将需要的数据源手动添加,进行跨库查询时使用。

在这里插入图片描述

当跨库数据源应用在数据集中时,一旦数据达到某个级别之后,报表性能就会出现很大的一个瓶颈,比如很长时间刷新不出、系统崩溃等。为了应对数据处理性能问题,Smartbi研发出高速缓存机制,它使用分布式的内存计算技术,在进行数据分析的时候,允许将原始库数据抽取到高速缓存中再进行分析,解决性能瓶颈,实现报表加速。并且可以根据用户的实际情况,选择不同的高速缓存方案。

在这里插入图片描述

高速缓存机制

高速缓存的基本原理就是将频繁访问的数据保存在相对能够快速存取的高速缓冲区域中,以避免在复杂的数据文件中寻找。由于高速缓存库中保存了数据副本,可以方便用户程序更高效地访问数据,并且减轻了数据库的工作量,增强了系统的性能和可伸缩性。目前产品支持高速缓存库的类型包括:SmartbiMPP、Presto+Hive、星环、Vertica、Infobright等。

我们在Smartbi的高速缓存库中采用了缓存技术,也叫“对象缓冲池”,用于缓存系统中用到的数据集定义及最近使用的查询结果等。产品的对象池是存储在内存中,对象缓冲池可以增强系统在并发时的性能,减少服务器的压力,提高用户报表查询速度。

数据抽取机制

Smartbi通过“数据抽取”将源数据库中的数据抽取到高速缓存库,保证秒级获取大级别量的数据结果,以提高系统性能。数据抽取功能的机制如下:

确定好数据集或分析的结果字段。

发起数据抽取指令,从源数据库中将字段的所有数据抽取到高速缓存库,在高速缓存库的“DEFAULT”节点下生成对应的视图和字段。

再次查询当前数据集或分析的数据时,从高速缓存库获取数据。

在这里插入图片描述

目前,系统支持数据抽取功能的模块有:自助数据集、可视化数据集、SQL数据集、原生SQL数据集、存储过程数据集、Java数据集、即席查询、透视分析、加载Excel数据。

实现加速的操作步骤

接下来,小麦以体验中心的“体验式场景5”为例,演示如何在自助数据集中实现数据抽取功能。

数据抽取功能的入口可以通过即席查询、非自助数据集和自主数据集进入界面,以下将从自助数据集入口进行介绍。

安装配置高速缓存库。

根据实际需要安装配置好高速缓存库(具体可以参考Smartbi wiki文档)。下图是我司研发的高速缓存库SmartbiMpp的连接配置界面:

在这里插入图片描述

创建跨库查询,并保存。

根据需要创建自助数据集,在自助数据集中跨数据源拖拽相关表进行关联查询。创建好后,我们保存自助数据集到我的空间并命名。

在这里插入图片描述

进行数据抽取设置,并抽取数据。

编辑自助数据集时,首先点击右上角工具栏上的 抽取 按钮,再点击 抽取设置 按钮,打开“数据抽取设置”窗口。

在这里插入图片描述

接着选择数据抽取的方式。数据抽取方式通常分为全量抽取和增量抽取,全量抽取是抽取所有数据,增量抽取是指与上次抽取结果中最大时间对比,将大于这个时间的数据进行集中抽取。 此处我们选择全量抽取,并立即抽取数据。

在这里插入图片描述

创建分析资源,进行数据预览

我们使用抽取好数据的自助数据集来创建相关资源,比如创建透视分析。选择对应的字段到行列度量区域,再点击刷新按钮即可。

在这里插入图片描述

可以看到,当数据抽取到高速缓存库后,刷新数据不到1秒即可展现,使用前高速缓存之前刷新数据至少要20秒,通过高速缓存库的加速,跨库查询的速度实现了十倍提升!

除了高速缓存库,Smartbi还有多方面的手段用以提高性能,比如设置参数、分页、Web优化、应用集群等等,以便解决不同情况下的性能问题。

随着全行业数字化转型和新基建时代的到来,越来越多企业重视海量数据的收集和分析处理活动,未来需要处理数据能力的要求会越来越高,Smartbi将会发挥原有的优势,在BI行业继续深耕,不断创新,为用户带来更为极致的体验与服务。

思迈特软件统一登录平台

标签:搞定,抽取,跨库,数据源,Smartbi,一招,数据,高速缓存
来源: https://blog.csdn.net/Moogical/article/details/116054214