从撕开裂缝到大幕拉开,Arm“芯”基建十年劲旅
编者按:
云计算、IoT、5G、AI驱动的应用变革,为基础设施算力创新者,提供了一轮又一轮机遇。从试图在服务器市场打开一道切口,到大幕完全拉开,Arm跋涉了十年。这期间,伴随着移动互联和数据革命对各行各业的深刻改变、云端对计算架构需求的变化,以及原有基础设施计算体系的重构。
大约十年前,Arm开始针对数据中心部署高效计算技术。受制于当时的技术、性能和生态水平,这一尝试不过是辽阔湖面上荡起的层层涟漪。
不过,Arm在服务器CPU的追赶并没有停止。2015年,64位ARMv8 Cortex-A57/A53刚刚开始普及,Arm又锚定了更遥远的未来,一举推出下一代顶级核心Cortex-A72,这也是其最早期的基础设施内核。
回看A72的发展,Arm方面认为“主要是凭借出色的能效比,以及媲美对手的线程所提供的单核性能表现”。通过Marvell、英伟达、博通、恩智浦等合作伙伴推出的智能网卡、DPU和物联网芯片,在网络和边缘场景中日益壮大。
随着数据消费模式的深刻变革,来自于消费、管理和处理边缘产生信息的模式成为主导,基础设施市场继续走向细分,一体通用的计算平台走向多样化计算架构驱动的计算时代。与此同时,用户希望在提升性能的同时,将线性性能扩展到更高的内核数量。
Arm在这个阶段的两大创新具有里程碑意义,一是2016年发布的CMN-600互连总线,为可扩展、高内核数、高性能SoC奠定了基础;二是2019年推出的Neoverse N1 内核,可以将线性性能扩展到更高的内核数量。
Neoverse N1单核性能同比超出传统SMT线程性能,从能效角度,可按约 1:3 的比例,用内核来替代SMT线程。这也使得Neoverse系列更加适合云服务,AWS的Graviton2和Ampere Altra都是基于这一IP的芯片产品,其工作负载能为用户带来40%的性价比优势。Neoverse N1顺利成为Arm面向高性能、高能效和可扩展计算新纪元的开山之作。
从云到边缘,计算变革全面启动
在过去这些关键创新的基础上,Arm在去年9月发布了Neoverse V1和N2,也是Arm Neoverse面向所有基础设施市场的全面启动。
01
Neoverse V1带动高性能计算的变革
与N1相比,Neoverse V1带来了50%的性能提升、1.8倍的矢量工作负载优化、以及4倍的机器学习工作负载优化。N1强调为高度依赖CPU性能和带宽的应用构建计算能力,并为芯片合作伙伴提供 SoC 设计的灵活性,而Neoverse V1是Arm强调性能优先的新型计算系列的第一个平台。
V1 的设计理念创造了Arm迄今为止设计过的最宽微架构,以便容纳更多运行中的指令,支持高性能和百万兆级计算等市场应用。V1宽而深的架构,加上 SVE功能,使其在单核性能和通过SVE延长代码存活期等方面占据领先优势,并为芯片设计人员提供可实现的灵活性。
值得强调的是,SVE架构的好处在于能够帮助开发者在寄存器宽度之间无缝转换,也就是说,开发者们既可以合并新的宽向量SVE指令,也可以重新使用为较小的寄存器编写的辅助函数。
先后在2019年Green500和2020年Top500夺下榜首的日本超级电脑富岳,其关键技术核心Fujitsu A64FX处理器就是一个很好的例子。在执行SVE代码时,可以控制SVE电压和频率转换,确保其可以全天全频率运行。
与Arm现有的SIMD指令集NEON相比,针对某些难以进行矢量化处理的代码,SVE可以直接取用相同的代码,对其进行自动矢量化,相比于NEON可提升近3.5倍的处理速度。由于SVE与矢量长度无关,因此相同的代码可以不加修改地在V1上运行。此外,如果在V1上加倍SVE矢量的宽度,对应的处理速度也几乎提速一倍。
02
Neoverse N2应对从云到边缘的性能挑战
如果说Neoverse V1是在发起高性能计算的变革,那么Neoverse N2平台,则是将性能优势从云到边缘应用全面铺开。N2基于上个月刚刚发布的Armv9架构,在安全性、能耗以及性能方面有全面提升,正在为基础设施核心铺平道路。
Armv9架构的突出亮点就是引入了增强的可伸缩矢量扩展SVE2,增强了多项DSP和ML处理能力。N2是Arm第一个具备SVE2功能的平台,该功能可为云到边缘的性能效率带来巨大提升,在诸如机器学习、数字信号处理、多媒体和5G等广泛应用场景中,SVE2除了带来大幅性能提升外,还带来了SVE 具备的编程简易性及可移植性等优势。单线程性能、以及能为用户减少TCO的每瓦性能表现,成为N2平台的突出优势。
相比于上一代N1, N2在保持相同水平的功率和面积效率的基础上,单线程性能提升了40%。具备良好的可扩展性,可以横跨从高吞吐量计算到功耗与尺寸受限的边缘和5G应用场景,并在这些应用中带来优于N1的表现。例如,在云端上提升1.3倍的NGINX,在5G和边缘应用上提升 1.2 倍的DPDK 数据包处理。
当然,面向下一代异构SoC的设计需求,还离不开互连总线技术的升级。基于上一代CMN-600,Arm推出了最新的CMN-700,在每个矢量上进一步提升性能——从内核数量、缓存大小,到附加内存及I/O设备的数量和类型,为紧密耦合的异构计算提供更大的灵活性。
对于V1和N2,Arm方面寄予厚望,Arm基础设施事业部高级副总裁兼总经理Chris Bergey表示,“通过V1 和 N2,我们想要改变业界对部署基础设施的看法,不需要在性能和能效之间进行选择,我们想要大家二者兼得。”
NVIDIA将Arm在基础设施市场当前的创新地位,视作GPU在AI和机器学习促进产业升级过程中所处的位置。NVIDIA加速计算副总裁兼总经理Ian Buck表示,“随着GPU驱动的AI和机器学习技术在跨产业的出现和采用,NVIDIA处于席卷数据中心市场变革的最前沿。在从云到边缘的整个计算基础设施中,我们也看到了类似的转变正在发生,我们相信Arm既是这种转变的催化剂,也是解决方案。当前客户对专用芯片的采用量是前所未有的巨大,而NVIDIA和Arm正处于这一趋势的核心。”
云计算、HPC、5G、边缘基础设施,是Arm在基础设施市场的四大目标应用。
云端市场软硬件齐头并进
立足于嵌入式移动计算的Arm,在云端市场的决心可想而知,毕竟未来巨量的网络终端市场需要云服务来进行连接和普及,最终形成一个巨大的市场。而云计算需要多方的协作,一个完整的网络体验需要硬件基础设施、操作系统以及一系列软件插件,打造生态是关键环节。
亚马逊云科技AWS是Arm Neoverse 的早期使用者,基于Arm的第一代Graviton已经在 AWS 的多个服务区域实现部署,目前,AWS 全球77个区域中的70 个区域可以启用基于 Graviton的vCPU。对于一款正式发布不到一年的产品来说,部署进度较快。不久前,AWS又推出了基于第二代Arm架构的Graviton2处理器,正在持续快速地扩张其EC2的覆盖。
调研公司Liftr Insights通过公有云的 API,可以了解 AWS是在在何时、何地引入了新的实例类型,调研发现,去年推出的新实例中有近一半是基于 Graviton2 平台。除了主流应用的用例,Graviton2 和 Neoverse 将逐渐被用于更多专用处理的应用场景中。
在与Oracle的合作方面,双方也找到了价值主张的契合点,即:为使用云服务的用户提供完整内核数的解决方案,而非 SMT 线程的解决方案。Oracle的目标市场是广泛的工作负载,非常重视性能一致性、可扩展性和安全性等。目前,Oracle宣布将 Ampere Altra用于其云基础设施。据了解,Oracle也在针对开发者进行规划,让他们能在基于Arm架构的Oracle云基础设施上,启用并运行其开发软件。
在中国市场,Arm与腾讯、阿里等云巨头展开了深入合作。去年,腾讯和Arm正式签署了合作协议,希望通过合作加速Arm Neoverse技术的测评和适配。而之后通过TencentBench测试框架发现,得益于更多可扩展的CPU核心数,Arm服务器比传统的服务器性能表现更强劲,并在AI推理和图片处理领域有一定优势。
阿里在即将上线的基于Arm架构ECS 实例上完成了测试,结果显示在SPECjbb 的测试数据中获得了良好表现,且基于Arm架构运行的 DragonWell JDK性能提高了50%。
Java 对阿里来说是一项重要的工作负载,其工程师已经编写了超过十亿行的 Java 代码。据阿里巴巴首席工程师周经森(Kingsum Chow)介绍,现有软件主要有两个考虑的点,一是有些软件是需要重新编译的,另外一种不需要重新编译,只需要把Java applications在JVM(Java Virtual Machine)上跑好就可以了。过去一年里,双方从JDK8到JDK11,通过OpenJDK, 通过阿里巴巴 Dragonwell(OpenJDK的一个发行版),把现有一些Java应用的性能提高了50%。
此外,Arm在ISV 和云软件的生态系统也在不断壮大。EDA 方面,几乎获得了主要工具供应商的支持,并详细计划了如何把EDA工作负载移上云端。云原生 ISV 生态系统也在迅速扩展,云原生容器安全性、托管持续集成/持续交付、以及下一代防火墙都在持续更新。
HPC和5G取得突破性进展
在HPC和5G方面,Arm覆盖不同维度的生态也在持续壮大。
今年4 月,印度电子和信息技术部MeitY宣布其百万兆级高性能计算CPU设计将采用Neoverse V1平台。这是继法国芯片初创企业SiPearl和韩国电子通信研究所ETRI之后,第三家公开宣布通过Neoverse V1驱动百万兆级高性能计算SoC的合作伙伴。
“单核性能、功效以及对新的SVE矢量扩展的支持是开启合作的一大原因,与富士通的 A64FX 一样,这些设计凸显了高性能计算 SoC 的发展趋势”, Chris Bergey表示,“利用 SVE、高带宽 DDR5 和 HBM 内存以及其他专用处理能力的整合,才能打造出百万兆级的 CPU”。
在5G的推进方面,无线接入网RAN是一项复杂挑战。使用5G时,网络资源会被池化为射频单元RU、分布式单元DU和中央单元 CU,对于每个单元而言,提供正确的计算以优化性能指标(例如在紧凑功率范围内的带宽和吞吐量)的能力至关重要。
尽管网络上层可能会越来越云端化,但下层却需要借助专用处理器和加速器来实现软件和硬件的组合。随着网络要件的虚拟化和容器化程度不断提高,加上安全性和存储等功能也被卸载以换取性能和效率,智能网卡/DPU在网络中也变得越来越重要。
基于Neoverse N2 ,Marvell推出了下一代OCTEON DPU,预计于2021年底前试产。据了解,相较于前一代的OCTEON解决方案,性能提升达3倍,将为5G、存储、信号处理和安全性等关键基础设施应用提供动力。
异构且多样的边缘基础设施策略
对于边缘和IoT基础设施市场来说,碎片化是一个主要特征,它可能在跨各种Arm平台上实现云原生堆栈的无缝托管时造成阻碍。
为了应对这一挑战,Arm在2019 年推出了Project Cassini项目,确保在多样化且安全的边缘生态系统中提供云原生体验,并聚焦三个方向进行开展:平台标准和参考实施、边缘安全性以及云原生堆栈,为软件开发者提供流畅的体验,通过标准、平台安全性与参考实施,让行业伙伴对在Arm平台上部署“装机即用”的软件充满信心。
以沃达丰的通用客户端设备uCPE概念验证为例,传统的客户端设备已部署为具有紧密耦合的专有硬件和软件的固定功能网络设备,而uCPE通过将软件与硬件解耦,并在开放式商用硬件上运行现代云原生软件,以达到取而代之的目的。
Arm与沃达丰及其他合作伙伴共同展示了uCPE可以同时运行虚拟化和容器化的网络功能,与传统供应商相比可节省大量电力,能让运营商降低成本、提高能效,并加快用于软件定义广域网SDWAN、防火墙和其他连接服务的网络设备性能。
可扩展平台应对未来复杂异构计算挑战
Neoverse系列产品在可扩展方面具有两大特点:一是能够支持大量CPU的硬件一致性指令缓存,实现拥有多虚拟机的庞大操作系统的优化;二是支持 MPAM(Memory Partitioning and Monitoring)和 C-busy(Completer busy)特性,能够让大量的内核可以均衡利用那些DRAM以及系统缓存等共享资源。并且,通过CMN-700互连技术,能实现最多256个内核的可扩展性支持,同时还能连接到加速器以及合作伙伴的IP等。
Chris Bergey表示,越来越多的用户需要完整的解决方案,即通过一个平台去承载系统设计,他们自己添加加速器或其他设备,并对其进行定制。通过Neoverse平台,Arm希望为用户提供打造未来科技大厦所需要的“砖瓦”,而不只是单个给客户某一个单独的IP、单独的CPU或互联IP。
行路至此,Arm还面临着云原生技术规模化应用所带来的挑战。
Arm方面透露,将会继续在公有云以及细分市场展开紧密合作,并在开源社区投入大量工程资源,进行诸多云原生方面的协作,构建更加丰富的云原生生态。
面向下一代基础设施市场,Arm表示,“今天的合作案例仅是冰山一角”。下一步,将继续展开大规模合作,比如在OSS、ISV方面。在中国市场,Arm还将与TARS基金会展开密切合作(这是腾讯带领、倡议的开源云原生Linux社区),专注于构建微服务云原生开源生态。
本文系作者 @河马 原创发布在河马博客站点。未经许可,禁止转载。
暂无评论数据