计算产业正处于多元化的创新时代。围绕云计算、AI/ML、大数据、5G、边缘的复杂场景对基础设施提出了新的要求,高性能、低能耗、高性价比、具有广泛适应性的解决方案被越来越多的企业所采用,这些客户一方面需要通过架构的创新满足加速计算等需求,另一方面也希望在云原生等环境中构建现代化的业务应用。Arm的业务是多样性的,早在数年前就制订了探索新领域的策略,为物联网、汽车、移动等市场带来更多的创新。Arm首席执行官Rene Haas表示,自2018年推出Neoverse以来,Arm持续为此投入了大量精力,并延续了能效方面的独特优势。如今,世界上所有主要的公有云服务提供商都在使用Arm架构,Arm很高兴看到未来的演变。
Arm 更新其 Neoverse 路线图,重新定义全球基础设施
Arm Neoverse为AWS Graviton系列CPU的独立创新提供了有力保障,这一成功实践也延伸到了更多的领域——全球范围内,Arm已经被用于AWS、微软、谷歌、阿里巴巴、甲骨文等多个公有云平台,并且遍及5G RAN领域。HPC方面,NVIDIA发布了面向AI和HPC的Grace。在传统的企业级市场,VMware运用DPU开展Monterey项目、红帽OpenShift支持Arm架构、SAP HANA正将其云基础设施迁移到AWS Graviton,HPE推出的ProLiant第11代平台搭载了基于Arm Neoverse的Ampere Altra处理器。
Arm为DPU提供了高性能且高效的核心,后者能够以较高的比特率处理网络数据包,并以每秒千兆字节的速度加密NVMe SDD流量。同时,Arm CPU还会助其加强工作负载与数据中心各模块之间的安全边界。为了帮助客户构建高性能、高能效的计算基础设施,提供专用处理和工作负载加速能力,Arm Neoverse迎来了路线图的更新,基于领先系统IP打造的V、N、E系列核心组合加强了可扩展的效率,性能得到持续提升。在技术层面,Arm曾创造过**个总内存带宽超过每秒1TB的CPU;**个单块裸片上能配置超过100个核心的 CPU,核心数达到128个;**个将DDR5和PCIe Gen 5.0推向市场的CPU;**个在SPEC CPU 2017基准测试中打破500整型跑分的CPU。
Arm是UCIe的创始成员,致力于开发和增强AMBA CHI,这也是实现高速、低延迟的芯片到芯片通信的重要协议。作为CXL联盟的一员,Arm在桥接芯片到芯片解决方案的关键互联技术上同样下了很大的功夫。借助Arm SystemReady所打造的“开机即用”的软件世界,Arm与开源社区和生态伙伴的协作也更加紧密,使得领先的Linux操作系统、云原生软件、每个领先的CI/CD管道都能受益于Arm架构。同时,Arm对各类编程语言、运行库、关键技术库、编译器等也进行了广泛的适配。由此,Arm成为了Kubernetes领域的热门开发目标。在前50位的Amazon EC2客户中,有48家运行着基于Arm Neoverse的AWS Graviton处理器,Epic Games 在数周内就将数百万行的C++代码移植到Arm平台上。
“当我们放眼基础设施以外的设备,例如手机、平板电脑、AR/VR、耳机、嵌入式设备、物联网和汽车等,都是由Arm开发者编写的Arm设备。这个社区规模达百万级,并且具有可持续性。开发者一直在努力提高代码的计算效率。而且,他们也希望在其上部署的计算同样高效。”Arm高级副总裁兼基础设施事业部总经理Chris Bergey表示,“Arm已经随处可见,全球的开发者均能获取。Arm现在不仅支持多云平台和企业青睐的负载平衡和冗余,还为开发者提供了另一可持续发展的道路。”
Honeycomb首席工程师兼SRE与Observability倡议者LizFong-Jones称:“将我们的应用程序构建并部署到Neoverse计算很简单,因为我们使用的是Go编程语言。我们只需在构建脚本中设置一个环境变量,便可生成功能齐全的Arm二进制文件,然后我们就能对其进行限定后,部署到由Neoverse N1支持的AWS Graviton2上。我认为能够拥有云独立性的能力十分重要,能够永不将任何东西绑定在一个特定的云上。拥有这种灵活性和不被绑定的自由是至关重要的。在这个部分,我相信鉴于Arm Neoverse已应用于AWS、甲骨文、谷歌云平台和Microsoft Azure,已大幅地改写了游戏规则,因为这意味着我们不必承诺永远只在AWS上运行应用程序,而是,我们将来还可用今天在AWS上运行的相同二进制文件为Azure的客户提供服务。对开发者来说,在云端访问Arm的一个关键好处在于,这不再是一个借口,比如,它不能在使用的云服务运行,或者它不能被采用的原因在于它无法被部署于我们想部署的地方。鉴于巨大的环境可持续性影响着显著的性能提升以及单纯关于成本的争论,如今的开发者没有理由不在Arm架构上尝试构建,并在基于Neoverse的云服务上运行他们的应用程序。”
“Arm合作伙伴生态系统囊括了当今全球众多的技术领导者,他们分布于云计算、高速网络、软件和AI等领域。Arm Neoverse已经能够引领一波新的云计算浪潮,提供所需的性能、可扩展性、效率和可持续性。”Arm基础设施事业部营销副总裁Eddie Ramirez介绍了围绕Arm Neoverse的更多生态进展。
今年初,谷歌云推出了基于Arm架构的T2A实例,并宣布了对Google Kubernetes Engine、Dataflow和云批量处理的支持,其表示会继续加大面向T2A的其他谷歌云服务的支持;基于Arm架构的Ampere Altra处理器赋能的**代Azure虚拟机,自其预览版发布后就吸引了大量的关注;Ampere通过开发全球首个云原生处理器,开创了全新的计算类别。这是一款专为云应用设计的CPU,与Arm合作吸引了谷歌、微软、甲骨文、惠普、Cruise等多家客户的采用;红帽与Arm的合作使其得益于SystemReady等标准,在全新的芯片上启动Linux内核,而无需进行特定修改。
在5G和边缘领域,Arm Neoverse正在帮助其合作伙伴完成从核心网络、边缘计算到RAN的网络演进,软件定义企业专用网络的出现,可以帮助运营商做出决策,以便提高效率和利用率。Marvell使用Neoverse与加密引擎、数据包处理引擎和其他针对云数据中心市场、5G 运营商市场,以及企业市场的工作加速器相结合,全面提升了基础设施能力;诺基亚打造了ReefShark芯片组,并使用了*新的硅技术和计算平台,与Arm在基于Neoverse CPU上进行合作,已全面使用。
在AI和云计算领域,遇贤微电子为中国市场的云计算数据中心领域设计了基于NeoverseN2的服务器 CPU,并且与Linaro和openEuler Linux操作系统等Arm开源社区生态合作,支持了更多的软件供应商,尤其是针对大型互联网云计算服务提供商,确保他们专用的Linux版本可以无缝运行在其即将推出的基于Neoverse N2的服务器CPU芯片上;鸿钧微电子的首款产品基于Neoverse N2打造,预计在明年底发布,已有来自互联网、云服务提供商、传统的垂直行业的多家客户对这款服务器CPU表达了兴趣;云豹智能的SoC上采用了Arm CPU,尤其是Neoverse CPU与其高性能互连技术,以便在数据中心中对DPU进行高效使用,相关的产品计划在明年初发布,结合了Arm可信固件、硬件驱动、系统SDK等方面的支持。
“单芯片性能和单线程性能是云决策者的两大关键指标。”Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll说。其中,单线程性能使得客户可以了解对“扩展”要求较高且性能需求大的工作负载能否迁移到 Arm,高单芯片性能则使其可以通过大量运行在平台上的 “横向扩展” 工作负载,实现投资价值的*大化。搭载Arm Neoverse V1核心的AWS Graviton3可以提供*高的单线程性能,Arm预计Graviton3可以提供更出色的性价比和每瓦性能,所支持的Ampere Altra Max和阿里倚天710能够提供*佳的单芯片吞吐量。
如果对比基于Graviton2和InteI Xeon的实例,AWS在MongoDB上的性能会优于友商超过117%,这就离不开CPU架构和软件的支持。在架构上,通过Arm v8.1引入了大型系统扩展(LSE),旨在为 “大型虚拟化工作负载”——即服务器上运行的应用程序提供更好的性能。MongoDB还利用了OpenJDK的运行时间,后者的LSE会被识别、启用和优化。用于构建MongoDB的GCC和Clang编译器也是类似的操作,需要与开源社区密切协作。
对于机器学习应用来说,V1核心有一组专门用于增强此类用途的功能:添加了Bfloat16;调整了V1 、N2和后续的微架构设计,旨在通过BERT提高BF16的执行;为Arm计算库(ACL)增加BF16支持;将ACL集成到oneDNNML框架中;oneDNN框架与Tensorflow搭配使用以运行BERT。在基于V1核心的AWS EC2C7g上运行BERT,并将其与使用*新Xeon核心的C6i对比时,在Arm架构上经BF16优化的堆栈性能要高出80%。在V1中加入BF16和Int8 MatMul意味着机器学习模型可以更紧凑地植入内存,因此需要更少的内存带宽,使Graviton3的机器学习性能达到Graviton2的三倍。
Arm推出Neoverse V2平台(代号“Demeter”),该平台配备*新的V系列核心和产业广泛部署的Arm CMN-700 mesh互连技术。Neoverse V2将为云和HPC工作负载提供市场领先的整型性能,并引入若干Armv9架构安全增强功能。目前,已经有多家合作伙伴在Neoverse V2的基础上进行设计,其中,NVIDIA正利用Neoverse V2作为其Grace数据中心CPU的计算基础。Grace将结合Neoverse V2的能效与LPDDR5X内存的能效,带来高出传统架构的服务器两倍的每瓦性能表现。
Arm会使用SPEC Integer Rate对预估值进行测量,利用模型中的各种云基础设施工作负载对微架构进行调整。Neoverse V2增加了2MB的专用L2缓存,较V1扩大了一倍,且延迟负载不变,使得MySQL和Memcached等云应用性能提升显著。在Neoverse V2上,Arm完成了从SVE到SVE2的过渡,SVE2可以满足更多非HPC和ML类型的工作负载,并且添加了更多的加密指令。同时,Arm还将矢量引擎重构为四通道128位,并对微架构进行了调整,以提高有效吞吐量。
Arm基础设施事业部产品管理高级总监Brian Jeff表示:“我们的网格 (mesh) 总线可以支持多芯片,这使得客户配置的核心数可以超过128个。对于构建更高的核心数的限制实际上是基于芯片面积和芯片TDP而定的,随着制程节点的提升,以及基于chiplet的设计技术被更多的采用,我们预计这些将推动核心数超过128个。”
云服务商希望所用的实例核心支持高带宽,以驱动大型工作负载,并且可以跨IO总线连接GPU、TPU和基于NVMe的SSD,速率也要更快。通过V2平台,可以利用Neoverse N2 的系统IP底板,包括CMN mesh、MMU、GIC和NI非一致性互连,CMN-700 mesh互连支持每块裸片*高512 MB的系统级缓存,每个核心的系统级缓存都得到了增加,提升了云原生工作负载性能。CMN-700支持2.5D设计,Arm平台可以随时过渡到3D,进一步提升每个核心的缓存能力。CMN-700还支持每秒4TB的mesh带宽,以应对严苛的工作负载。
NVIDIA Grace基于Arm Neoverse V2打造,可以提供72个核心,通过NVLink-C2C互连技术与GPU进行深度结合以实现更好的AI性能和一致性通信,Neoverse V2的每瓦性能表现结合Grace的LPDDR内存可以带来两倍以上的每瓦性能提升。洛斯阿拉莫斯国家实验室(LANL)的新一代系统Venado是美国首个采用NVIDIA Grace CPU技术的系统。Venado是使用HPE Cray EX超级计算机构建而成的异构系统,同时将配备Grace CPU超级芯片节点和Grace Hopper超级芯片节点,满足各类新兴应用需求。该系统建成后的AI性能预计将超过10 exaflops。“Arm的进展是惊人的,尤其是在软件方面。NVIDIA正在将所有的AI栈和软件移植到Arm 架构,我们很高兴可以加入其中。”NVIDIA超大规模和HPC副总裁兼总经理Ian Buck说。
面向中国市场,Arm也在积极与5G、无线网络、基础设施、云计算等领域的伙伴密切合作,以应对日益复杂的应用挑战,包括与多家初创企业在Neoverse N2上进行联合创新,当前在中国高速发展的服务器和5G市场,正是Arm Neoverse所定位的领域。Arm 基础设施事业部全球副总裁邹挺称:“中国在基础设施领域的建设和升级中兴起了新的浪潮,这对所有人来说都是一个巨大的机会。Arm将继续全面致力于中国市场,我们将与安谋科技、生态系统合作伙伴以及中国的客户携手合作,以确保共同取得成功。”
2023年,基于Neoverse V2平台打造的芯片会正式走向市场,N系列产品线也会迎来更新,进一步提高每瓦性能标准,已有近20家合作伙伴基于N2平台进行设计。同时,E系列同样会升级,可以更有效地作为数据平面处理器使用,支持高吞吐量的SoC和5G及网络。“基础设施市场正在被重新定义,以Arm的高性能、可扩展效率计算为中心,并通过我们合作伙伴的专用处理得以增强。在Arm Neoverse平台路线图的原则基础上,我们将为全球计算基础设施奠定新的起点。”DermotO’Driscoll表示。