英特尔的代工厂仍在努力赶上其主要竞争对手台积电所提供的制程和封装技术,因此英特尔的服务器CPU产品线不得不“将就”代工厂现有的条件,创造出性能与价格都适中的产品,以便在X86领域的CPU竞争对手AMD以及数据中心新兴的Arm架构中脱颖而出。
因此,英特尔决定将其产品线分为使用真正的Xeon核心(即所谓的P核心,即性能核心)和经过升级的Atom核心(即所谓的E核心,即能效核心)的机型。这并不是英特尔Xeon产品线的新分支,而是其过去十多年来一直秉承的原则强化。
这一次,英特尔并没有基于Atom风格的核心创建玩具级的服务器CPU,并限制主内存和I/O扩展,然后寄希望于企业会大量采购并将它们像冬季罐头食品一样塞满机架。相反,英特尔正在将大量Atom核心聚集在一个真正的服务器插槽内,这些核心具备真实的内存和I/O容量,并能插入标准的Xeon服务器平台,为高吞吐量工作负载提供卓越的价格/性能和散热效果,在这些场景下,标准的带超线程的Xeon P核心往往无法满足需求。
从长远来看——即未来五年左右——市场将决定拥有两种截然不同但指令集几乎相同的核心,是否能与拥有两种更相似但布局不同且每个核心L3缓存减半的核心相竞争。后者是AMD的策略,AMD正在对其标准Zen核心进行更微妙的区分,例如用于EPYC 9000系列“Genoa”变种的Zen 4核心,以及基于Zen 4c核心的“Bergamo”高核心计数和“Siena”低散热服务器CPU。
需要记住的一点是,尽管AMD如今在X86服务器CPU的出货量中占据了33%的份额,但正如Lisa Su在昨天举行的2024年台北电脑展主题演讲中所指出的那样,英特尔仍然占据着剩余的67%份额——尽管其代工厂部门还面临着诸多挑战。但英特尔正在摆脱束缚,奋力前行。
英特尔预计在2025年左右解决其代工厂问题,并拥有众多优秀的架构师,能够设计出卓越的CPU,甚至可能在“Falcon Shores”项目中开发出具有竞争力的GPU。英特尔还在努力提高封装技术的良品率。可以预见,随着英特尔的持续发展,AMD和基于ARM架构的竞争对手将面临更大的竞争压力。
Xeon 6系列的两种不同版本——已开始陆续发布的初始“Sierra Forest”E核芯片,以及将在第三季度发布的初始“Granite Rapids”P核芯片,是英特尔缩小CPU服务器差距的第一步。一年半后,市场竞争将变得异常激烈,我们预计X86领域的市场份额可能会大致相当。此外,ARM架构在整体服务器出货量中的份额很快就会达到20%,而RISC-V也将开始在这里和那里获得一些支持者。
总的来说,数据中心领域的CPU竞争远未结束,未来还将上演更多精彩纷呈的较量。英特尔、AMD和ARM等各大厂商都在不断努力提升技术实力和市场地位,以期在激烈的市场竞争中脱颖而出。
两个目标,一个架构
英特尔一直在谈论其E核(能效核)和P核(性能核)战略,但在深入探讨其首批即将发布的Sierra Forest芯片之前,了解这一战略的核心原则至关重要。首先,该战略并非一蹴而就,英特尔并没有打算一次性推出整个产品线,而是分阶段进行。我们猜测,这可能是由于生产Sierra Forest芯片所需的Intel 7和Intel 3工艺在产能上受到限制。
上述图表是我们结合两个英特尔图表制作的,它表明Xeon 6的P核变体主要针对AI工作负载,但同时也适用于HPC模拟和建模以及任何需要使用更强核心而非较弱核心的工作负载。AI只是计算密集型工作负载的一种,对于考虑使用预训练生成式AI模型并用自有数据进行再训练,以便在CPU集群中运行AI工作负载的企业来说,它可能是最有趣的一种。
由于E核芯片没有AVX-512向量单元或AMX矩阵数学单元,它们在AI或HPC处理方面的能力相对有限。它们的设计初衷主要是用于应用程序、打印、文件和Web服务,而在某些情况下,E核变体可能也适用于其他类型的微服务应用,其中代码块相对适中。英特尔表示,视频流、媒体转码以及其他类型的数据流处理非常适合E核机器。
在E核和P核设计中,内存和I/O控制器以及用于CPU的NUMA共享内存集群的UltraPath Interconnect(UPI)链接都是从核心中分离出来的,这些核心位于一个、两个或三个芯片组上。2023年1月发布的“Sapphire Rapids”Xeon SP v4将所有这些组件都集成在每个芯片组上,并集成了四个芯片组形成一个插槽。而2023年12月发布的“Emerald Rapids”Xeon SP v5则退回到使用两个芯片组,但总核心数略有增加,而所有控制器仍然与核心位于同一芯片组上。此外,Sapphire Rapids和Emerald Rapids芯片还有针对低核心和中核心数设备的单芯片组、单片式实现方式。
Sierra Forest Xeon 6处理器的核心组件采用了7纳米Intel 3工艺进行蚀刻,而I/O和内存芯片则采用了与Sapphire Rapids和Emerald Rapids相似的进一步精炼的10纳米Intel 7工艺进行蚀刻。
Xeon 6处理器将分为两个系列,分别命名为6700和6900,这两个系列将通过使用E核和P核瓦片进行进一步区分。不会有在同一封装中混合E核和P核芯片组的Xeon 6,但如果有人想要这样的产品,英特尔应该会为其定制。
本质上,6700系列创建了插座的“虚拟”低核心数(LCC)、高核心数(HCC)和极端核心数(XCC)芯片,这些芯片通过EMIB封装技术缝合在一起。似乎没有中等核心数(MCC)的变种。
以下是Xeon 6 6700系列芯片封装的外观:
以下是Xeon 6 6900系列芯片封装的外观:
英特尔至强6(Xeon 6)系列服务器CPU的推出计划是分阶段进行的,这主要是基于客户的反馈。首先推出的是面向中低端市场的Sierra Forest能效核(E-core)芯片,随后在第三季度推出面向高端市场的Granite Rapids性能核(P-core)芯片。
这种分阶段推出的策略有助于满足不同客户的需求,并为市场提供更灵活的选择。能效核(E-core)芯片在能源效率和成本效益方面具有优势,适用于对功耗和成本有严格要求的场景。而性能核(P-core)芯片则提供了更高的计算性能和AI性能,适用于需要处理大量数据和复杂计算任务的场景。
英特尔通过与客户紧密合作,了解他们的需求并制定相应的产品推出计划。这种以客户为中心的策略有助于确保英特尔的产品能够满足市场的实际需求,并在竞争中保持领先地位。
此外,分阶段推出也有助于英特尔更好地管理供应链和生产流程,确保产品的质量和供应稳定性。随着技术的不断发展和市场的变化,英特尔还将根据客户需求和市场反馈,持续优化和更新其产品线。
总之,英特尔至强6系列服务器CPU的分阶段推出计划是基于客户反馈和市场需求制定的,旨在为客户提供更灵活、更高效的产品选择。
在未来第一季度,英特尔将推出核心数高达288个的更强大的Sierra Forest芯片,同时还将推出6300、6500和6700系列的较低版本的Granite Rapids芯片。此外,Granite Rapids芯片还将有SoC版本,最有可能用于边缘用例,其中强大的核心以及向量和矩阵数学单元将用于AI推理处理。
英特尔之前从未推出过强大的Atom机器,因此很难将当前的Xeon SP与未来的Xeon 6强大核心机器进行比较。在演示中,英特尔将Sierra Forrest Xeon 6 6700芯片与第二代Xeon SP处理器(大多数人通过其代号“Cascade Lake”而熟知)进行了比较,这些处理器于2019年4月推出。根据英特尔的基准测试和我们自己的分析,我们认同基于Atom的E核的每时钟指令数(IPC)对于整数工作与Cascade Lake Xeon SP大致相同。如果进行计算,Sierra Forest中的E核具有Emerald Rapids P核约65%的性能。这一切都是相互匹配的。
我们将对Xeon 6 6700E系列进行更深入的架构探讨,但与此同时,以下是相当有限的SKU堆栈,仅包含七个变种:
在2025年第一季度,英特尔将通过两个计算模块和两个I/O及内存控制器模块,将Sierra Forest芯片的性能提升一倍,从而打造出Xeon 6 6900E。这款芯片被称为ZCC封装,核心数最多可达288个。
显然,如果你按核心数付费购买软件,E核版本可能难以销售。但如果你自己编写微服务软件或按插槽付费,那么软件定价就不是问题,E核Xeon 6可能在降低热性能和成本的同时,提供可接受的吞吐量,成为理想的选择。
下面是我们常规的性能对比和定价图,该图提供了一个与2009年3月发布的四核心“Nehalem”Xeon E5500相比的原始性能指标。这些性能指标综合考虑了不同世代的核心数、时钟频率和每时钟指令数(IPC)。
请注意,具体的性能数据和定价可能因市场条件、技术进步和客户需求而有所变化。因此,在做出购买决策时,建议参考最新的产品信息和性能评估。同时,考虑到技术的快速发展,未来的产品可能会带来更高的性能和更多的功能,因此持续关注行业动态和技术更新也是非常重要的。
“Emerald Rapids Xeon SP v5”处理器系列的“高性能通用”高端部分包含从8到64个核心,以及从16到128个线程。根据我们的方法论,它们的相对性能范围在5.85到27.78之间。在Intel的千件托盘批量定价中,价格范围从1,099美元到11,600美元不等。Sierra Forest芯片没有采用超线程技术,核心数从64到144个不等(这意味着线程数也只有64到144个)。价格范围在2,749美元到11,350美元之间,但相对性能范围则从22.89提升到了47.20,这意味着性价比提高了19%到43%。在给定瓦特数的情况下,性能提高了两倍,或者在给定性能的情况下,瓦特数减少了一半。当然,这只是一个非常一般的表述。
与Cascade Lake Xeon SP v2服务器CPU的比较很有趣。2019年的高级Cascade Lake拥有56个P核心和112个线程,运行在2.6 GHz,以超过946美元/单位的成本实现了21.69单位的性能。而2024年的低端Sierra Forest CPU拥有64个E核心,运行在2.4 GHz,相对性能为22.89,但每单位性能的成本仅略高于120美元。这意味着在过去五年中,价格/性能比提高了7.9倍。那款高级Cascade Lake部件的功耗为400瓦,而Sierra Forest系列中的低端Xeon 6 6710E处理器的功耗相对较低。
高级Sierra Forest 6700E部件的工作量是低端部件的两倍多,而单位性能的成本也是两倍,因此与Cascade Lake高级部件的差距减少了一半。但即便是3.95倍的性能提升也是相当不错的。
参考链接:https://www.nextplatform.com/2024/06/03/intel-brings-a-big-fork-to-a-server-cpu-knife-fight/