AMD EPYC(霄龙)Genoa服务器 | 综合评测
9004 | EYPC | 9654P | AMD
9654 | 7703 | Genoa | Intel
当生命科学、医药研发、东数西算、数据分析、数据挖掘、算力、数据中心、智算中心、遥感测绘、地质遥感等场景逐渐成熟,上层应用场景改变了底层硬件基础,计算、存储、网络架构的迭代升级和调整融合,对服务器产品的形态,性能等方面提出了更高的要求,更强算力、更高性能还要兼顾节能成为企业用户的关注点。
注:由于篇幅有限需要更多 AMD、Intel 详细资料,请在公众号末尾留下您的邮箱,小编会将PDF文件发您邮箱,共同进步学习。
企业为寻求更加敏捷、灵活和高效的应用开发模式,以加速应用的创新和快速上市,云原生等应用开发模式拉近了业务和计算平台之间的联系,应用开发团队将定义基础设施的性能、可用性和规模,直接推动计算平台架构的变革和创新。
在这个背景下,代号为“Genoa”的 AMD EPYC 9004 系列产品在11月11日推出。该芯片在数据中心、企业数据服务、云计算、高性能计算中经常使用,提高了15-25%的性能。全新 AMD EPYC Genoa 改变了服务器的基础即每个插槽 50-60%(或更多)的改进,这意味着可以实现 3:2 或 2:1 的整合)。如果使用3-5 年的至强可扩展服务器到 EPYC,整合潜力将更加巨大(有望达到4:1)。这个新系列不仅是额外的内核或一些新功能突出。
蓝海大脑 AMD EYPC 9004系列服务器
当前CPU市场背景
目前独立显卡市场仅有英伟达和AMD两家,集成显卡市场还要算上英特尔。
一、英特尔
英特尔在液冷GPU服务器领域布局,自首款产品Pentium Pro推出以来,已经有25年之久。英特尔拥有高达 28 个内核和 6 个 DDR4 通道的芯片(Ice Lake和Cooper Lake是其第三代英特尔至强可扩展家族的一部分),可以扩展到 4-8 个插槽(或减少至一个)。和40核和8通道的DDR4用于2个插槽应用程序(完整的指令集是常见的但是也有例外,如bfloat16支持两者之间并不相同)。
如果想要配置具有 2 个 40 核 Ice Lake Xeon CPU 的高端双插槽 Ice Lake 服务器,以及具有 4 个 28 核 CPU 的高端 4 插槽服务器,那么将总共获得 192 个内核(与高端双插槽热那亚服务器相同)。总内存带宽也将处于类似的范围内。当Sapphire Rapids在2023年到来时,英特尔将专注于16-64核心的主流市场。
二、AMD
AMD在高端芯片中拥有大约50%的核心数量优势,其重点在购买较低内核数SKU的市场中心进行竞争,并利用加速器提供远远超出内核本身所能提供的性能提升。
全新的AMD EPYC Bergamo(使用与热那亚相同的AMD Socket SP5,但重点是最大化云工作负载的核心数量)通过减少缓存大小以适应更多内核。全新的AMD EPYC Bergamo是AMD的高内核数解决方案,每个插槽最多128个内核。AMD EPYC 9004 CPU的宣传只有96个核心。
Genoa-X将打破L3缓存的1GB /插槽障碍。使用标准 EYPC 9004 CPU,每个插槽可获得高达 384MB 的 L3 缓存或每个 768P 服务器高达 2MB 的 L3 缓存。使用Milan-X,有 64 个内核,每个插槽高达 768MB 的三级缓存。
预计 2023年AMD 将在双插槽服务器中提供超过 2GB 的 L3 缓存。Genoa-X将针对HPC领域的应用,在这些应用中,添加3DV缓存可以提高数据局部性,从而减少移动数据浪费的功率。新的AMD EPYC(霄龙)平台将更适用于边缘计算、HPC和云计算等领域。
AMD EYPC Zen4 架构
EPYC 9004系列基于和桌面锐龙7000系列同款的Zen4架构,只是针对服务器与数据中心应用做了适当的调整优化。
整体而言,综合计算33种不同的服务器负载,Zen4架构的IPC相比Zen3提升了大约14%,这比锐龙7000系列的提升高了1个百分点。
不同模块的贡献差不多,最大的还是前端部分,接下来是载入/存储、分支预测、执行引擎、二级缓存。
AMD EPYC 9004 系列主要在两个方面进行改进。
一、微架构的改进
AMD EPYC Zen 4是Zen 3代相对较小的微架构更新。但这并不是说没有更新,只是不是Zen 2到Zen 3或Zen 4到Zen 5计划的巨大飞跃。
二、缓存层次结构的改进
最大的变化之一是AMD正在添加更多的缓存,并做更多的工作来启动不同的缓存阶段。凭借双倍的二级缓存,新芯片可以将更多数据保留在内核本地,而不必发送到内存层次结构的更高级别。
Zen 3 和 Zen 4 微架构不同部分的一些关键比较
AVX-512指令集其实也是一模一样的,但它在服务器数据中心显然更加如鱼得水,作用更加明显。
根据AMD提供的数字,EYPC 9004系列相比EPYC 7763系列,得益于规格性能的改进,尤其是AVX-512指令集的加持,NLP吞吐量、物体检测吞吐量、图像识别吞吐量分别增加了大约4.2倍、3.5倍、3倍之多!
安全方面也更丰富,其中安全加密虚拟化(SEV)方面,除了继续支持SME、SEVES、SEV-SNP,还将内存加密升级到AES-256-XTS,并支持1006个加密客户机,支持多重主机密钥(SMKE)。
另外强化了对客户机的保护,尤其是可免于SMT攻击。
SOC 平台
AMD EPYC(霄龙)9004系列依然没有独立芯片组,而是一个完整的SoC,延续chiplet小芯片设计可将 8 核 CCD 的数量从 4 个扩展到 12 个。9004系列内部包含一个IOD、最多12个CCD。(CCD每个集成8颗Zen4 CPU核心、32MB三级缓存,合计最多96核心、384MB三级缓存,同时也有8个CCD、4个CCD的版本,分别最多64核心、32核心)。IOD内集成了DDR5内存控制器、PCIe 5.0/CXL 1.1+控制器、第三代Infinity Fabric控制器、安全处理器。
AMD EPYC 9004 小芯片架构 4x CCD
单路配置下,EPYC 9004系列可搭配最多24条DDR5内存,每通道2条(2DPC),可提供128条PCIe 5.0、8条PCIe 3.0通道。
双路配置下,每个内存通道就只能装1条了(1DPC),最多还是12条,PCIe 5.0通道对外可用则是最多160条,每路80条对外、48条用于彼此互连,另外还有12条PCIe 3.0,每路6条。
IF高速总线升级到了第三代,最高带宽32Gbps,可选3条或4条链接,前者是默认的,此时对应的系统可用PCIe 5.0通道数量就是刚才说的160条。
如果选择4链接,每路处理器就要贡献一半的PCIe 5.0通道用于彼此互连,留给系统可用的就是128条,这和上代是相同的。当然,即便同样128条,从PCIe 4.0升级到PCIe 5.0,可用带宽也是翻倍的。
I/O性能方面,EPYC 9004支持新的高级虚拟中断控制器(AVIC),提升虚拟中断性能,并改善了中断处理吞吐量,包括CPU核心内部与SoC层面。
搭配PCIe 4.0 x16规格的200Gbps(20万兆)网卡,默认设置下效率即可超过90%,最高达94%,单向能跑到188Gbps,双向则能跑到375Gbps。
如果搭配PCIe 5.0 x16规格的400Gbps(40万兆) InfiBand高速网络,标准配置下效率也能超过90%,最高甚至达99%,能跑出396Gbps。
AMD拥有新一代的Infinity Fabric接口(插座与插座互联),AMD的Infinity Fabric使用SerDes,可以处理PCIe之类的事情,因此随着这些SerDes对PCIe的速度越来越快,Infinity Fabric也紧随其后。AMD在链路上从PCIe Gen3时代转向Gen5时代意味着互连带宽现在很大。
内存DDR5
内存方面,一如桌面锐龙7000系列,EPYC 9004也仅支持DDR5,可以带来更高的频率与带宽、更低的电压与功耗、更好的电源管理(板载PMIC)、更多的通道与更低的延迟、更大的容量、更好的校验纠错(板载ECC)等。
EPYC 9004系列支持12个DDR5内存通道(12 个内存通道中的许多通道都是为了在高端部件上保持相同的比例),单路最大容量6TB(单条512GB)。标准的4800MHz频率下,峰值理论带宽可达460GB/s。
延迟方面,EPYC 9004略有增加,但影响不大,其中SoC约73ns、设备约45ns,总计约118ns,比上代分别增加了3ns、10ns。
EPYC 9004还支持每路多重内存节点(NPS),可以对12条内存进行分组管理,进一步优化性能。
CXLL概述
CXLL,也就是Compute EXpress Link,一种缓存一致性高速互连行业标准,主要用于处理器、内存扩展与加速器。
CXLL有三种工作模式,EPYC 9004并不支持第一种(面向NIC网卡)、第二种(面向GPU/FPGA/加速器等密集计算),而仅支持第三种,也就是内存缓冲,可扩展内存带宽与容量,协议走的是cxl.io、cxl.mem。
总的来说,AMD EPYC 9004系列在延续chiplet设计的同时,升级了工艺、架构,升级了内存、扩展连接等,整体规格、特性上了一个大大的台阶。
此外,Zen EPYC家族还会陆续还会推出采用3D V-Cache技术的更高性能版“Genoa-X”,面向云计算服务的“Bergamo”(贝尔加莫),以及面向电信基础设施和边缘计算的“Siena”(锡耶纳),组成完整的产品矩阵。
新芯片支持 CXL 1.1(多达 64 个通道可用于 CXL 设备,并且 CXL 1.1 x16 连接的带宽大致与两个 DDR5 通道一样多,从理论上讲,AMD 不仅可以使用 CXL 1.1 设备获得更多内存容量,还可以获得更多可用带宽),具有一些前向功能。AMD 仅支持可以视为内存扩展设备的 Type 3 内存缓冲区。这些节点通常在操作系统中显示为具有附加内存容量但没有 CPU 的新 NUMA 节点。
SKU
AMD EPYC 9004 Genoa 系列推出时有 18 个 SKU(14 个不同的 SKU),有 4 个单插槽“P”变体。拥有四个“F”SKU,用于频率优化部件,增量为 16、24、32 和 48。有五个较低的内核计数 SKU,其中 32 个内核有一个 P 变体。最后,还有密度优化的SKU,有五个模型和三个P变体。
总的来说,AMD旨在增加更新更快内核的价值。AMD正在大量部署单插槽服务器。在前几代产品中,AMD 证明了范式转变。对于Genoa,似乎拥有大规模1P系统的能力意味着AMD并没有大幅打折1P。
AMD EPYC 9004 SKU 列表及功能
芯片性能
在实际工作负载中,如果在大型芯片上运行单个工作负载,有时工作负载中存在单线程部分。会导致大型芯片的性能非常差,因为这些工作负载看起来像这样,384 个线程中有 1 个以 100% 的速度运行。在双 4 核/8 线程服务器上,单个线程占总线程数的 6% 以上。在双 96 核/192 线程服务器上,单个线程刚刚超过 0.26%。
许多工作负载已经扩展多年,但仅限于 256 个线程。这意味着 1/3 的线程未被使用。
展望未来,我们将越来越多地使用裸机容器,然后使用虚拟化工作负载进行扩展。这与VMware VMmark类似,但KVM是更大的虚拟机管理程序,其云采用,VMware对VMmark施加了限制。尽管如此,在未来考虑两者仍然很重要,因为有一种观点认为,在 384 线程系统上击中工作负载的单线程部分对整体性能来说是可怕的。
STH nginx CDN性能
基准测试的世界几乎总是在整个 CPU 上运行单个工作负载。即渲染工作负载、HPC 工作负载等将使用整个芯片。尽管如此,大多数芯片确实用于容器化或虚拟化工作负载。云计算就是一个典型的例子。未来我们将越来越多地使用裸机容器,然后使用虚拟化工作负载进行扩展。这类似于 VMware VMmark 所做的,但 KVM 是更大的虚拟机管理程序,它采用云计算,而 VMware 对 VMmark 施加了限制。
在设计基准套件时,可以在网上看到的许多工作负载理想情况下会尝试在整个 CPU 上运行一个工作负载。在实际工作负载中,如果在大型芯片上运行单个工作负载,有时工作负载会有单线程部分。这导致大芯片上的一些性能非常差,384 个线程中有 1 个线程以 100% 运行。
在双 4 核 / 8 线程服务器上,单线程占总线程数的 6% 以上。在双 96 核/192 线程服务器上,单线程仅超过 0.26%。
一、Python Linux 4.4.2 内核编译基准
任务很简单,我们有一个标准配置文件,来自 kernel.org的 Linux 4.4.2 内核,并利用系统中的每个线程进行标准的自动生成配置。以每小时编译的形式表示结果,以使结果更易于阅读。
二、c-ray 1.1 性能
这是一个非常流行的光线追踪基准测试,用于显示多线程工作负载下处理器的差异。以下是 8K 结果:
有趣的是,当 8K 渲染会对四路服务器施加压力数分钟时,我们就开始收集有关这种渲染风格基准的数据。现在,新一代在 13 秒内完成了运行。
三、7-zip 压缩性能
7-zip是一种广泛使用的跨平台压缩/解压缩程序。在早期的Windows测试中开始使用该程序。它现在是Linux-Bench的一部分。这里使用传统运行来显示扩展,即使不点击加速器。
同样,这是一个出色的性能,尽管在压缩方面看到更高核心数量的扩展挑战。然而,压缩是一项在未来将无处不在的功能,但也将保证卸载到加速器。
四、国际象棋基准测试
国际象棋是一个有趣的用例,因为它具有几乎无限的复杂性。
这里的一个主要挑战是基准测试在 256 个线程时停止了扩展。必须将基准测试拆分为通过容器在两个 192 线程实例中运行以获得上述结果。否则,三分之一的芯片没有被使用。
五、SPEC CPU2017 结果
首先,展示最常用的企业和云基准,SPEC CPU2017的整数速率性能:
在这里,需要添加更多内核、更高的时钟速度和内存带宽会产生令人震惊的结果。据报告显示,进行全平台调优的 OEM 在 1790 时将略低于 1800。这比我们得到的要高,但这是一个令人震惊的数字。AMD 将有效地拥有 3 倍于顶级双插槽 Intel Xeon 8380 的结果,但插槽数相同。这也意味着 AMD 在每个内核上实现了更好的性能,即使将内核打包成 96 核部件也是如此。
AMD EYPC Genoa 功耗
在功耗方面,Genoa是强大的。我们通常在 1kW-1.2kW 之间测试双插槽 AMD EPYC 9654 系统。尝试将TDP从360W提高到400W。性能提高个位数百分比,但在双插槽配置中使用这种模式,我们看到墙上增加了 100-120W。对于现代风冷系统,增加更多的CPU TDP通常会带来15-20%的“风扇税”,以增加功耗。
AMD EPYC 9654 热那亚 SP5 插槽 1
在每瓦性能的基础上,这是惊人的。AMD 通常将性能提高 2-3 倍,同时将功耗提高 20-40%,这是大多数组织每天都会做出的权衡。
我们只是要在这里快速指出,这不是一个关注PSU / PDU功耗非常重要的领域。功率密度的增加也会以非线性方式增加空气冷却要求。此外,AMD的很多性能来自12通道DDR5。如果我们只采用封装功率,我们会查看 CPU 的性能功率增加,而不是内存为实现该性能水平而消耗的额外功率。在 24x DDR5 服务器中,内存使用超过 100W 或 ~10% 的系统功率的情况并不少见。Genoa和蓝宝石急流之间的差异也将来自这些额外内存通道的系统功耗成本。
AMD EPYC 9654 SP5 插槽 4
尽管如此,Genoa的每瓦性能仍大大提高。
AMD EPYC 热那亚双通道 DDR5 及更多产品
就平台而言,AMD拥有更像是最小可行产品,而英特尔则拥有非常成熟的产品,但它需要生产更多的芯片。AMD的最小可行产品对于大多数市场来说仍然足够好(或比这好得多)。此外,将48x DIMM安装到双插槽服务器本身并不是一件容易的事,因此存在实际的物理限制,可以使许多服务器仅保持在1DPC,例如我们测试的QCT系统。
大型服务器与小型服务器
在低端市场,Genoa更具挑战性。新的EPYC(霄龙)CPU需要PCIe Gen5,主板材料更好。此外,AMD的新芯片有12个内存通道。对于 96 核机器,12 个内存通道感觉是正确的选择。对于 16 核机器来说,感觉不平衡。
AMD EPYC 9004 2P QCT 1
许多服务器位于超大规模数据中心之外。许多客户在 2023 年没有采用 DPU。其他人甚至没有在整个队列中采用PCIe Gen5 NVMe SSD或其他设备。因此,新平台将过于昂贵。
目前DDR5的现货定价比DDR4溢价约50%。以 50% 更高的价格增加 50% 的模块是我们看到非二进制 DDR5 容量等功能的原因。
AMD的许多客户将在 2023 年继续使用 AMD EPYC 7003 米兰。如果一个组织每个插槽需求的内存少于512GB,不需要DDR5带宽,并且只使用100GbE NIC和一些SSD,那么米兰将是不错的选择,也许是更好的选择。第二个实际上是即将推出的AMD EPYC Siena系列。世界上许多应用程序的转型速度比技术进步慢。
虽然我们已经看到AMD多年来过渡到新平台,但随着米兰的出现,我们看到低端罗马占据了一段时间的低成本细分市场。现在,随着Genoa变得越来越大,AMD需要一些东西来解决低端问题。
AMD EYPC 9004产品参数
AMD此次发出9004系列共18款产品,其中包括9654P、9654等。
一、9654P
采用AMD Infinity Guard、AMD Infinity 架构技术,尽可能减少潜在攻击危险,无论在软件启动时,执行期间,还是访问关键数据时,都在为你保驾护航。为新型数据中心提供强劲动力,让您企业的关键应用快速看到结果并提高能源效率。
1)9654P架构
平台:服务器
产品家族:AMD EPYC™ (霄龙)
产品系列:AMD EPYC™ 9004 Series
CPU 核心数量:96
线程数量:192
最大加速时钟频率:最高可达3.7GHz
所有核心智能频率提升:3.55GHz
基准时钟频率:2.4GHz
三级缓存:384MB
默认 TDP/TDP:360W
AMD Configurable TDP (cTDP):320-400W
封装:SP5
支持的CPU插槽数:1P
Launch Date:2022年11月10日
2)连接性
PCI Express 版本:PCIe 5.0 x128
内存类型:DDR5
内存通道:12
最高内存速度:最高可达4800MHz
内存带宽(每路):460.8 GB/s
二、9654
采用AMD Infinity Guard、AMD Infinity 架构技术,尽可能减少潜在攻击危险,无论在软件启动时,执行期间,还是访问关键数据时,都在为你保驾护航。为新型数据中心提供强劲动力,让您企业的关键应用快速看到结果并提高能源效率。
1)9654架构
平台:服务器
产品家族:AMD EPYC™ (霄龙)
产品系列:AMD EPYC™ 9004 Series
CPU 核心数量:96
线程数量:192
最大加速时钟频率:最高可达3.7GHz
所有核心智能频率提升:3.55GHz
基准时钟频率:2.4GHz
三级缓存:384MB
默认 TDP/TDP:360W
AMD Configurable TDP (cTDP):320-400W
封装:SP5
支持的CPU插槽数:1P/2P
Launch Date:2022年11月10日
2)连接性
内存类型:DDR5
内存通道:12
最高内存速度:最高可达4800MHz
内存带宽(每路):460.8 GB/s
第四代AMD EYPC处理器服务器
蓝海大脑高性能计算事业群液冷事业部搭载AMD EYPC 9004系列处理器平台测试系统的稳定性。
蓝海大脑AMD EYPC 9004系列GPU平台概述
值得一提的是双AMD EPYC(霄龙)处理器。每个处理器都有 16 个 DDR5 内存插槽,总共 32 个 DIMM。所有这些 DIMM 通道都可以填充在 1DPC 配置中,因此添加 DDR5 DIMM 可提高性能。
AMD EPYC 9004 2P QCT 2
蓝海大脑同时搭载AMD平台中的 EPYC Genoa风冷冷却器用于适配深度学习、高性能计算、训练推理等场景。蓝海大脑参考英特尔平台的第四代至强可扩展散热器,使用英特尔至强CPU进行手动基准测试。英特尔表示其Xeon Max部件将达到350W,AMD为360W,CTDP为400W,因此它在散热器上具有更密集的鳍片设计。
新的SP5插槽绝对是巨大的。一个很大的变化是插槽只有一个螺钉来固定CPU。AMD在这一代中正在改变,使用冷却器的螺钉对芯片施加压力。芯片要大得多,因此需要平衡压力。
AMD EPYC 9004 CPU 相较于Intel酷睿更具挑战性。虽然它们相对较大,但不会是在每个内核上表现最好的,甚至不会在这个周期中拥有AMD最高的内核数量。AMD 现在有足够的规模来超越整个市场的单一设计,扩展内核、频率和 TDP。相反,AMD现在将为一些较大的细分市场提供特定于细分市场的解决方案。在人工智能深度学习的推动下,谁将更胜一筹,我们将拭目以待!
本文系作者 @河马 原创发布在河马博客站点。未经许可,禁止转载。
暂无评论数据