自研芯片等产品的背后,探寻亚马逊云科技的创新逻辑与密码
作者:互联网
今年亚马逊云科技re:Invent全球大会期间,一则新闻吸引了笔者的关注:Meta与亚马逊云科技达成战略合作关系,将使用更多亚马逊云科技的计算、存储、数据库和安全服务。
这则消息很快湮没于浩瀚的re:Invent大会纷至沓来的捷报中,但却促使笔者进一步思考,哪怕数据中心建设水平、各项技术实力如此之高的Meta公司,也在积极拥抱亚马逊云科技的各项服务,这无疑是对亚马逊云科技产品与技术的最佳褒奖。
如今,云计算轰轰烈烈走过十五年历程,市场竞争也日趋激烈。但不能否认,亚马逊云科技依然是云计算的创新标杆,其云服务的广度与深度在市场中无出其右。今年的re:Invent大会上,亚马逊云科技又带来涵盖计算、物联网、5G、无服务器数据分析、大机迁移、机器学习等方向的多项新服务和功能,再次为云计算产业发展树立了新标杆。
下面,笔者将通过分析本次大会发布的几款重磅新品,解读亚马逊云科技产品与技术背后的创新逻辑和密码,以及分析云计算未来的技术趋势。
自研芯片:反向设计至关重要
自研芯片,如今成为云服务商的重要布局之一。
在所有云服务商中,亚马逊云科技是最早发力自研芯片的。亚马逊云科技第一款自研芯片Nitro对于产业界带来了深远影响。如今,亚马逊云科技已经拥有完整的三条自研芯片布局:第四代的Nitro、基于机器学习推理和训练的芯片产品线Inf1、基于ARM架构的Graviton等
而今年re:Invent大会最重磅的发布无疑就是Amazon Graviton3自研芯片。这款芯片采用5nm工艺,拥有64个核心和550亿晶体管,支持bfloat16 (为深度学习而优化的新数字格式)、PCIe 5.0等最新技术,比Graviton2 性能提升了25%,在科学计算、机器学习和媒体编码工作负载则能够提供2倍的性能。此外,Amazon Graviton3处理器能效也更高,在同样性能下,与X86实例相比可节省60%的能耗。
无疑,从Amazon Graviton3公布的参数来看,在云计算行业中属于顶级。为何亚马逊云科技致力于包括Graviton在内自研芯片的研发?亚马逊云科技CEO Adam Selipsky直言不讳:当前各个行业对于云计算的核心需求仍然是算力,未来还将有大量工作负载迁移到云。
从Amazon Graviton3的设计来看,亚马逊云科技也给予了与众不同的角度。亚马逊云科技大中华区产品部总经理顾凡表示:“‘经验没有压缩算法’,亚马逊云科技的芯片设计思路是反向设计,秉承的原则从实际客户工作负载和需求出发。”
亚马逊云科技大中华区产品部总经理顾凡
事实上,过去二十年里,处理器提升性能的方法始终围绕的是提高频率和增加核心数量,提高频率意味着功耗持续上升,也带来了数据中心散热等系列需求,不仅让客户使用成本上升,也不符合如今全球绿色减排的大趋势。因此,亚马逊云科技的思路是围绕客户对于算力需求的提升和降低功耗的要求,谨慎地提升处理器频率,而是增加指令并行、内存带宽,以实现处理器性能提升和能耗降低。以由 Amazon Graviton3 处理器支持的 Amazon C7g 实例为例,作为云计算中第一个采用最新 DDR5 内存的实例,与基于 Amazon Graviton2 的实例相比,提升 50% 的内存带宽,达到 300 GB/s,使得其在科学计算等内存密集型应用表现大幅提升。
亚马逊云科技大中华区产品部计算与存储总监周舸介绍道,“如今大量工作负载都属于大数据分析、微服务,对于带宽和延时敏感度很高,所以Graviton3这一代芯片并未一味追求增加核数,而是着重在内存带宽的增加上。”
“同样的处理器架构、同样的晶体管数量,实际上不同公司的设计思路和想法差别很大。亚马逊云科技希望用户对于底层采用何种处理器是无感的,更多聚焦在上层应用创新上。”周舸补充道。根据亚马逊云科技介绍,如今已经有超过20个托管服务基于Graviton,且仍在持续增加中,并且Graviton3很快会进入到中国市场。
亚马逊云科技大中华区产品部计算与存储总监周舸
自研芯片另外一大优势就是能够让云服务商在每个业务流程中做到效率与成本的最优化。当业务规模持续增加、自研芯片的必要性就愈发突出。以SSD为例,亚马逊云科技的采购量大、品牌众多,每家SSD供应商都有自己的控制器,每款控制器这就容易造成复杂性,像垃圾回收、磨损均衡一旦启用,对于性能就会产生干扰。
因此,亚马逊云科技推出了Nitro SSD,并且已经部署超过50万Nitro SSD。周舸直言:“以亚马逊云科技的规模与用户数,一旦有问题,不能等供应商来修改,必须自己做好。”
不过自研芯片并不等于就不采用其他供应商的芯片,在亚马逊云科技看来,为用户提供多样性的选择至关重要。以计算实例为例,亚马逊云科技已经拥有超过475个EC2计算实例类型,涵盖通用型、计算优化型、内存优化型、存储优化型、硬件加速型等工作负载,“要给予用户充分的选择权。用户完全可以根据自身工作负载和业务需求来选择合适的计算实例。”顾凡表示道。
将无服务器化进行到底
如果说自研芯片是云服务商试图重塑云基础设施中的计算部门,那么Serverless则是云服务商试图让云计算各种资源更加方便、快捷地使用。
2012年,亚马逊云科技首次提出了Serverless概念,并且推出Lambda产品,正式开启Serverless商业化。Serverless核心思想是将同质化、负担繁重的基于服务器等基础设施的开发和运维等工作从未来云上应用开发中移除,借助云上丰富的托管服务能力,以搭积木的方式构建弹性、可靠、低成本的系统或应用。
如果从云计算的本质来看,无服务器化是发展的必然,因为它有望给用户带来更低的成本、更加简单的资源使用和更加灵活的资源调整,无服务器化无疑是将成为云计算的重要未来。“全栈无服务器一定是大势所趋,未来将会有更多用户希望端到端地用服务器构建一个更加复杂的业务应用。”顾凡如是说。
事实上,亚马逊云科技也是无服务器化的推动者和领导者。以目前热门的数据库为例,无服务器模式的数据库则可以更具需求自动扩展数据库规模,进一步优化用户的资源选型,带来更小的开销,以及对于业务更加快速、灵活的响应。Amazon Aurora Serverless从设计上就是基于提供多租户无服务器云环境中所需的安全性和隔离性上,根据应用程序的需要自动启停并扩展计算容量。
亚马逊云科技大中华区产品部数据类产品高级经理王晓野
在本次大会上,亚马逊云科技又发布了Amazon Redshift Serverless、Amazon EMR Serverless、Amazon MSK Serverless、Amazon Kinesis On-demand等四个具有无服务器和按需扩展的功能,进一步丰富了自身的无服务器化服务。
“这四款服务的推出,意味着客户可以更加快速和便捷地构建大数据服务,聚焦业务部门的需求,而不用关心容量配置等基础工作。”亚马逊云科技大中华区产品部数据类产品高级经理王晓野表示道。
进一步降低数据分析和AI门槛
过去,很多行业用户的数据往往是TB级,数据类型也是以ERP、CRM数据为主;而如今,大部分用户的数据量都突破了PB级,并且大部分数据都属于非结构化数据,用户在业务场景中对于数据分析、AI应用的需求在持续大幅提升,数据消费、AI应用成为业务场景中的常态。
这无疑驱动着AI在各大行业用户中进一步落地。但AI门槛亦是近年来不能忽视的挑战,具体来看,与机器学习/AI等紧密相关的数据依然存在着大量的挑战,很多用户需要耗费大量的人力、精力在数据就绪上;其次,机器学习/AI大量工具主要还是数据科学家在使用,对于很多没有AI背景的人员有着很高的门槛,如何将门槛降下来,让更多人更加便捷、简单地使用AI就成为关键。
因此,在本次大会上,亚马逊云科技在这两方面都带来了一系列的产品与工具,大幅降低AI门槛,让用户更便捷地将AI用起来。
亚马逊云科技大中华区机器学习产品高级经理张洋
首先针对数据的问题,亚马逊云科技在本次大会上重点突出了现代化数据架构的重要性,不同的场景使用专门构建的工具,通过云上专门工具实现数据有机整合与统一,打破数据孤岛,“从客户角度出发”来帮助用户进行数据创新。
具体来看,亚马逊云科技通过数据湖,收集、存储和分析来自一系列分散系统的数据,助力业务发展。在数据服务方面,亚马逊云科技则可以为用户提供了完整的、端到端的工具,涵盖从数据存储、到计算、分析、人工智能创新。
在本次大会上,亚马逊云科技发布了多个数据工具,进一步降低了数据相关的挑战。以Amazon Database Migration Service Fleet Advisor为例,它可以帮助客户选择最佳可用的计算实例和配置,用以部署机器学习模型,获得最佳的推理性能和成本,并且将过去数周才能完成的工作缩短到数小时。
而在降低AI门槛方面,亚马逊云科技则为业界闻名的机器学习平台Amazon SageMaker新添六项新功能,包括Amazon SageMaker Canvas、Amazon SageMaker Ground Truth Plus等。
像Amazon SageMaker Ground Truth Plus 是一项完全托管的数据标记服务,为客户提供内置的工作流程、技能娴熟的团队,以更低成本快速交付高质量的训练数据集,用于训练机器学习模型,客户无需编码;Amazon SageMaker Canvas 为各种想用AI的员工提供可视化界面,他们无需任何机器学习经验,也不必编写代码,即可自行创建更准确的机器学习模型进行预测。
亚马逊云科技大中华区机器学习产品高级经理张洋表示:“Amazon SageMaker已经成为端到端的机器学习平台,跨越机器学习全流程,处理数据标记、数据处理、特征存储、算法探索、模型推理到上线再到边缘端设备管理等。与此同时,Amazon SageMaker也将继续降低机器学习门槛,让更多人能用好AI。”
让云计算拓展到更远
云计算如何延伸到更多领域、场景,这无疑是当前云服务商都在积极思考的问题。
所以除了数据中心之外,云服务商都在积极打造各种基础设施,以方便将云服务的技术、产品和模式延伸到更多领域之中。例如,Amazon Outposts,亚马逊云科技希望通过它将云计算的各种体验、技术延伸到用户本地数据中心。
值得关注的是,亚马逊云科技在今年大会上再次展示了其将云计算拓展的决心。亚马逊云科技宣布,2022年将在21个国家建设超过30个本地扩展区;此外,Amazon Outposts、IoT 服务、Snow 家族服务、Amazon Ground Station也将云的能力延伸到物联网、太空等场景中。
以Outposts为例,很多客户在低延迟、数据本地化的场景中都在采用Outposts。顾凡介绍:“很多客户都希望亚马逊云科技将能力延伸到各种边缘场景中,一套API、一样的服务体验。”如今,Outposts除了整机柜产品之外,也衍生出1U和2U产品,在零售、制造工厂、医院、油田等行业业务场景中被广泛采用。
此外,亚马逊云科技也推出了Amazon 5G Private 5G专网服务,几天时间就可以部署和扩容一个专用移动数据网络,适用于办公室、园区、工厂车间等场景。
“云计算在未来是无疆的。”顾凡表示道。
总体来看,亚马逊云科技在今年的re:Invent大会上再次发布了多款重磅的产品和服务。亚马逊云科技的技术创新和云服务打造,核心原则是“以客户为中心”,在客户需求、业务特点的基础上,不断构建起至深至广的各种云服务;与此同时,亚马逊云科技又始终坚持降低复杂性,让云各种能力更好地被用户所使用,像Serverless化也是其核心差异化竞争优势之一。面向未来,随着亚马逊云科技不断将自身云能力延伸到更多场景之中,有望为全球用户的数智化带来更多价值。
标签:计算,自研,亚马逊,科技,Amazon,AI,芯片,探寻 来源: https://blog.csdn.net/dobigdata/article/details/122047305