其他分享
首页 > 其他分享> > RocketMQ 5.0: 存储计算分离新思路

RocketMQ 5.0: 存储计算分离新思路

作者:互联网

作者:林清山

Apache RocketMQ 自 2012 年开源以来,因其架构简单,业务功能丰富,具备极强的可扩展性等特点被广泛采用。RocketMQ 在阿里巴巴集团内部有着数千台的集群规模,每天十万亿消息的规模。在阿里云上,RocketMQ 的商业化产品也以弹性云服务的形式为全球数万个用户提供企业级的消息解决方案,被广泛应用于互联网、大数据、移动互联网、物联网等领域的业务场景,成为了业务开发的首选消息中间件。

尽管消息中间件 RocketMQ 在阿里巴巴和开源社区已经走过了十多个年头,但在云原生浩浩荡荡的浪潮下(《云原生时代消息中间件的演进路线》),我们开始对 RocketMQ 的架构有了一些新的思考。

痛点与困局

阿里巴巴有大规模实践 RocketMQ 生产经验,迄今为止,集团稳定运行着数百个 RocketMQ 集群,数千个节点,自 RocketMQ 从 2016 年对外商业化以来,一直延续跟集团消息中间件相同的架构为云上的客户提供全托管的消息服务,从 16 年发展至今,消息队列 RocketMQ 在云上已经具备相当大的业务规模,大规模的场景下,这套极简的分布式架构在云原生环境下逐渐显露出来了一些弊端,云计算复杂的网络环境,数万企业客户的多租场景,为 RocketMQ 的商业化产品带来的不少的挑战。

1.png

集团消息中间件通过存储计算一体化的部署架构,为集团电商业务提供了高性能、低延迟、低成本的消息服务。随着云的进化,云开始变得更加弹性,网络环境更加复杂,云原生时代对效率也有了更高的要求,我们也迎来了对云上消息架构进行云原生化改造的契机。

如上图所示,是目前 RocketMQ 在云上部署的一个简化版的架构(仅包含最核心的组件),这套部署架构近年来在云上遇到的主要痛点有以下两点:

基于这个大背景,阿里云消息团队对 RocketMQ 在云上进行了云原生架构升级专项,实践存储计算分离的新架构,同时引入基于 gRPC 的全新多语言解决方案(阅读《全面升级 —— Apache RocketMQ 5.0 SDK 的新面貌》了解更多详情),来加速消息中间件的云原生化。

存算分离新思路

如何在云上实践存算分离,如何探索出一个适合 RocketMQ 三位一体的新架构,是 RocketMQ 进行云原生架构升级主要考虑的点,这里面有很多现实因素的考量:

对于第一个问题,实践的结果已经告诉我们架构简单的优异性,但在云上遇到的痛点又告诉我们存算分离势在必行,可见存储与计算要不要分离,并不是一个非此即彼的选择,架构上的选择是否能都要呢?对于这个问题,我们的解法是存储计算需要能做到可分可合:

对于第二个问题,在阿里云上,有多个阿里云自研的不同协议标准的消息服务,如何通过单一架构支持多产品形态至关重要,将 RocketMQ 的核心业务消息的能力无缝复制到多个产品,放大业务价值。

总而言之,架构层面的核心理念是以存储计算架构分离为切入点,进一步探索单一架构多产品形态,以降低消息子产品的重复建设,最终也需要实现存储与计算可分可合的部署形态,同时满足云上的运维灵活性以及开源、集团等部署简单、高性能的需求。

存储计算分离架构

RocketMQ 5.0 在架构上的第一个升级便是存储计算分离改造,通过引入无状态的 Proxy 集群来承担计算职责,原 Broker 节点会逐步演化为以存储为核心的有状态集群,同时会重新研发一批多语言的瘦客户端来解决富客户端带来的诸多问题。

2.png

上图是一个存储计算分离架构的简图,图中借用了 Service Mesh 关于控制和数据面的划分思想以及 xDS 的概念来描述,架构中各个组件的职责分别为:

虽然存储计算分离带来的额外的成本,主要是延迟和成本:

简而言之,在云上环境,云服务形态的 RocketMQ 非常适合存储计算分离架构。

存储计算合并架构

但从本质来讲,存储计算分离,与就近计算和就近存储的理念是冲突的。存储计算一体化的架构固然在云上为我们带来了极大的困扰。这里面的本质还是因为云上是一个多租户的环境,存储计算一体化在多租户的场景下灵活性是不够的,但很多场景往往都是小规格单租户,其实更适合存储计算一体化。

为了云外云内都能统一技术方案,我们更加期望的一种机构是存储与计算可分可合的部署形态,分开部署是计算节点完全无状态,运维迭代极其简单,合并部署时更原架构体验保持一致。

但无论采用什么样的部署架构,存储和计算的分离是一种良好的模块化设计方式,在编程层面的分开是必须要进行的。

3.png

如上图所示,左边是云上一个分离部署的形态,右边是合并部署的形态,合并部署是计算节点可以作为存储节点的 SideCar,采用网格的思想进行部署,也可以将计算和存储揉进同一个进程进行部署,实际上,我们在实践的过程中,通过对代码充分的进行设计,Proxy 节点可以通过构造器构造出「Local」和「Cluster」部署的两种形态,分别对应合并部署和分离部署的两种架构形态。

单一架构多产品形态

在《云原生时代消息中间件的演进路线》一文中提到阿里云消息团队目前有业界最丰富的消息产品矩阵,包括消息队列 RocketMQ、消息队列 Kafka、微消息队列 MQTT、消息队列 AMQP、消息服务 MNS、事件总线 EventBridge。丰富的产品矩阵是团队多年来践行多样性和标准化演进路线的结果,所有的消息子产品目前都构建在 RocketMQ 存储内核之上,非常具备统一架构的前提。

4.png

通过单一的存储计算分离架构,支持多产品的业务形态,是云原生消息探索的一个重要方向,这种单一架构多产品形态会带来诸多好处,比如计算节点共建,通过模型抽象支持多业务模型,多通信协议,释放重复建设的人力。通过存储节点并池,各产品打通内部存储节点,形成资源池合并,统一运维和管控,有助于降低成本、提高效率,加速存储创新,孵化消息中台。

5.png

如上图所示,单一架构多产品形态的核心先统一存储和计算,并进一步统一管控和运维,真正做到一套架构支撑多个云产品:

总结

目前阿里云消息队列 RocketMQ 实践存储计算彻底分离的架构还处于第一个过渡阶段,未来的路还很长,我们会投入至少 1 年的时间在公有云环境全面落地存储计算分离的架构,让消息服务更弹性、更云原生,让团队提高效率,加速业务创新。我们期望新的架构能稳定服务于未来至少 5 年的业务增长,同时,存算可分可合的部署架构也能过非常好的支撑开源不同规模用户的个性化需求,让 Apache RocketMQ 开源社区能过整体收益于存算计算可分可合架构的新形态。

标签:5.0,存储,架构,部署,新思路,计算,云上,RocketMQ
来源: https://www.cnblogs.com/aliware/p/16322735.html