其他分享
首页 > 其他分享> > CCO x Hologres:实时数仓高可用架构再次升级,双11大规模落地

CCO x Hologres:实时数仓高可用架构再次升级,双11大规模落地

作者:互联网

简介:本文将会介绍今年是如何在去年基础上进行实时数仓高可用架构升级,并成功大规模落地双11。

作者 | 梅酱
来源 | 阿里技术公众号

一 2021年双11总结

2021年阿里巴巴双11期间,由CCO+Hologres构建的高可用实时数仓经过2年的迭代,支撑了阿里集团内部从智能到人工,从应用到数据产品,从B/C到内部运营等数10个核心应用场景,并在双11实时大屏、实时监控大盘等多个应用场景全面启动新一代高可用及灾备方案,在Hologres主集群写入峰值达450万+每秒的情况下,还能真正做到数据“0”延迟,服务“0”延迟。

相比2020年,今年通过优化实时写入链路,在Binlog消费和维表Join流量翻倍的情况下,同等资源下Hologres Binlog读取峰值达1700万+每秒,整体水位平稳保持正常高吞吐。同时今年首次在大促核心场景上线新一代高可用及灾备方案,取消去年使用的双实例+双链路的高成本方式,极大降低人力开发、压测以及运维成本,降低无效双链路任务上百个,减少人力投入50%,节约上千cu计算资源。

下面将会介绍今年是如何在去年基础上进行实时数仓高可用架构升级,并成功大规模落地双11。

去年精彩回顾:Hologres是如何完美支撑双11智能客服实时数仓的?

二 客户简介

CCO是Chief Customer Officer的缩写,也是阿里巴巴集团客户体验事业部的简称。在阿里巴巴经济体内,CCO是“客户第一”价值观落地的组织保障,是整个经济体客户体验的神经网络,也是触达消费者和商家的最前线。“成为新商业的服务生态摇篮”,“让体验成为商业的核心竞争力”是我们的愿景。凭借着为消费者、商家和经济体提供专业服务的小二,为平台不断挖掘存量客户价值的体验运营专家,为业务发展提供底层支撑的数据、产品和技术人才,我们成为了互联网行业独一无二的数字化服务体验团队 —— 一支有爱有担当,富有创造力的“阿里柔军”。

三 业务挑战

CCO通过与Hologres高度共建,构建了集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力2020年双11场景,支持上千+服务大屏,削峰30%,节约成本近30%。

但是在2021年,任务规模也相比2020年增长1.5倍,实时数据膨胀2倍以上,如何有效管理数据和资源成为了越来越关键的问题,同时2021年大促期间将会面临更加高并发高吞吐的流量,如何保障实时数仓的高可用,以及保持稳定性和成本的平衡,是今年构建实时数仓的核心挑战。

2020年双11,为了应对大促的流量洪峰,在高可用方面,我们花费1个月,投入巨大人力成本,来构建双链路+双实例的高可用方案,以下为去年双11的实时数仓架构。这个架构虽然支撑了去年双11等各种大促流量洪峰,但是在今年更为复杂的环境和外部更多挑战的情况下,也存在着一定的痛点,主要有以下几个:

image.png

为了解决2020年遗留的问题,2021年双11对实时数仓进行升级,采用新一代高可用及灾备方案,在对单链路进行充分的压测评估以及长应急预案外,实例内使用多副本+共享存储的方式,除了在出现未知问题时可以快速切换副本来提高业务的可用性外,还极大的降低了构建双链路的成本。同时在面对大促和日常流量时,可以快速缩容,提高架构的整体灵活性,在成本和效率上相比去年更加的平衡,实现生成高可用,成功大规模落地双11。

下面将会具体介绍今年的高可用及灾备方案。

四 业务方案

整体数据链路同2020年保持一致:数据源数据通过Flink ETL处理后实时写入Hologres,行存表用于在线服务场景,列存表用于复杂多维分析场景,再由Hologres通过通过不同的场景直接对接上层应用。

在去年方案的基础上,对架构进行升级,对Hologres服务和分析场景进行集群隔离以及高可用部署,组成当下实时数仓3.0架构。

注:部分不核心业务由于历史原因暂时无法下线,所以由Hologres同步至某DB引擎提供服务。

image.png

升级1:多种隔离方式满足生产高可用

在高可用部分,今年的方案升级主要如下:
1)服务和分析集群隔离
采用行存和列存两个实例集群,有效隔离行存服务和列存分析场景下对于QPS/RT不同要求的能力。

2)分析场景读写分离高可用和灾备
对于大促期间高保的列存分析核心场景,启用多实例共享存储读写分离高可用和非共享存储灾备的能力建设。

日增量数据在数十TB的规模下,无论是共享存储的读写分离高可用还是非共享存储的灾备模式,同机房/跨机房实时数据同步延迟都低于10ms,完全满足我们对于大促高保场景的数据时效性要求。

升级2:实时链路优化提高吞吐

对于核心场景,在大促流量洪峰下查询需要保持高性能,写入也同样需要保持高吞吐,才能不影响业务的下一步决策,例如每年双11交易峰值,对写入和Binlog消费的压力都比较大,因此实时链路的优化与保障需要格外处理。今年针对大流量场景的任务调优,在实时链路上我们针对并发、攒批、connector等都做了相应的优化,保证了高吞吐写入,降级写入延迟,满足不同业务系统的需求。

为什么要采用这样的方案,有比较强的场景原因也有比较客观原因造成的方案折中:

五 总结

由CCO+Hologres构建的高可用实时数仓经过2年的迭代,由最初的传统数仓逐渐升级到2021年的高可用实时数仓:2020年年双11大促首次采用以Hologres为核心实时数仓方案,统一了实时核心数据与部分离线数据的存储。再到2021年通过对实时数仓进行高可用架构升级,由链路双写顺利升级为读写分离高可用以及灾备架构,并在双11以及双12等核心场景规模应用。实时任务规模由去年的几百+增加至上千+,写入压力增加至1700万+每秒,数据规模高达几百TB,直接服务数十个在线服务场景,数百个核心分析业务,有效降低了构建实时数仓主备链路的人力以及机器成本,减轻了核心业务对于读取稳定的压力,完美经受住各大促核心场景的检验,实现生产高可用。

原文链接

本文为阿里云原创内容,未经允许不得转载。 

标签:11,数仓,场景,可用,CCO,实时,数仓高,实例
来源: https://www.cnblogs.com/yunqishequ/p/15785405.html