服务器 频道

谁赢了?英特尔和英伟达AI芯片基准测试大PK

  不久前,在台北国际电脑展上,英特尔迫切希望在AI训练和推理领域展现其性能优势,并实施了一项未曾有过的举措:公布了其当前及前几代AI加速器的定价清单。这一举动对于像英伟达和AMD等AI加速器和系统初创公司来说实属罕见。

  通过英特尔发布的Gaudi 2和Gaudi 3加速器的定价信息以及一些基准测试结果,包括采用这些芯片的服务器峰值馈入和速度,分析机构可以深入剖析并对芯片厂商之间的市场竞争进行比较。  

  英特尔发布其定价的原因很简单:该公司正努力通过销售AI芯片,为其未来的“Falcon Shores”GPU在2025年底入市,以及随后“Falcon Shores 2”GPU在2026年的上市筹措资金。为了实现这一目标,英特尔必须向市场证明其产品不仅物超所值,而且在性能上也具备更加强大的竞争力。

  这种自我证明之所以重要,还因为Gaudi 3芯片已经从今年4月开始出货,也是英特尔2019年12月斥资20亿美元收购Habana Labs、进而拿下Gaudi系列加速器产品线之后,推出的最新一代方案。

  另一款“Ponte Vecchio”Max系列GPU是美国阿贡国家实验室“Aurora”超级计算机的核心,以其卓越的散热能力和高昂的制造成本闻名。但也同样受这两大劣势因素的影响,该系列GPU在这些交易之后几乎立即被封存,英特尔也希望从一再推迟的Ponte Vecchio平稳过渡到有望于明年年底准时推出的Falcon Shores。

  正如英特尔在2023年6月透露的那样,“Falcon Shores”GPU将采用Gaudi 生产线的大规模并行以太网结构和矩阵数学单元,并将其与为Ponte Vecchio创建的Xe GPU引擎相结合。这样,“Falcon Shores”GPU可以同时进行64位浮点处理和矩阵数学处理。相比之下,Ponte Vecchio并没有具备64位矩阵处理能力,只支持64位矢量处理,虽然这样的设计有其独特优势,但它也意味着Ponte Vecchio在处理某些人工智能工作负载时可能不是更优选择,这在一定程度上限制了其市场吸引力。

  因此,英特尔公司将Gaudi 和Xe计算单元合并全新的Falcon Shores引擎,旨在为用户提供更强大、更灵活的计算能力。

  尽管人们对Falcon Shores的具体性能了解有限,但已经知道其功耗高达1500瓦,与预计明年初即将批量出货的高端“Blackwell”B200 GPU相比,其功耗和散热需求高出25%。B200 GPU额定功率为1200瓦,在4位浮点精度下可提供每秒20千万亿次的计算能力。在相同的芯片制造工艺水平下,Falcon Shores在相同浮点精度下的能耗与Blackwell相比多出25%。

  对于英特尔来说,更优的选择可能是利用预计于2025年投产的Intel 18A制造工艺来制造Falcon Shores,并能够展现出更强大的浮点运算能力。而Falcon Shores2则有望采用更为先进的英特尔14A处理器,预计将在2026年推出。

  英特尔在代工和芯片设计业务上的策略早已引起业界的关注。相比之下,台积电在技术上持续创新,英伟达的GPU路线图也展现出了强劲的发展势头。例如,“Blackwell Ultra”计划在2025年推出,配备HBM内存,GPU计算能力也有望得到提升。随后,“Rubin”GPU将于2026年问世,而“Rubin Ultra”的后续产品则预计将于2027年推出。竞争对手的这些进展无疑给英特尔带来了不小的压力。

  与此同时,英特尔在去年10月曾表示,其Gaudi 加速器的销售额有望达到20亿美元,但在今年4月表示,预计2024年Gaudi 加速器的销售额将缩减至5亿美元。然而,与AMD今年公司预计的40亿美元GPU销售额,以及英伟达在数据中心计算领域今年可能实现的1000亿美元甚至更高的销售额相比,英特尔的销售额显得相形见绌。

  然而,为了达成这20亿美元的销售目标,英特尔必须确保“Falcon Shores”和“Falcon Shores2”的成功销售。因此,英特尔在大会的简报中积极公布了价格与基准测试结果,以展现Gaudi 3加速器与当前市场上英伟达“Hopper”H100 GPU的竞争力。这一举措体现了英特尔对这两款新品的更高期望与积极推广的态度。

  对决开始啦↓↓↓

  英特尔的第一个对比是AI训练,GPT-3大型语言模型有1750亿个参数,Llama 2模型有700亿个参数: 

  上述GPT基准测试的数据基于MLPerf标准运行,而Llama 2的数据则结合了英伟达发布的H100测试结果和英特尔的估算。值得注意的是,GPT基准测试在拥有8192个加速器的集群上运行,其中英特尔Gaudi 3配备了128GB的HBM内存,而英伟达H100则拥有80GB的HBM内存,而Llama 2测试则在仅包含64台设备的机器上进行。

  在推理方面,英特尔进行了两项比较:首先是将配备128GB HBM的Gaudi 3与80GB HBM的H100进行对比;其次是将同样拥有128GB内存的Gaudi 3与拥有141GB HBM的H200进行比较。英伟达的数据涵盖了使用TensorRT推理层在各种模型上的表现,而英特尔的数据则专门针对Gaudi 3进行了测试。

  下图是H100 80GB 与Gaudi 3 128GB进行的比较:  

  下图是H200 141GB和Gaudi 3 128GB进行的比较:  

  在此重申两个观点:首先,真正能够得到广泛应用的AI加速器,必定是那些能提供更具性价比的产品。其次,如果某个加速器能够以合理的精度混合执行矩阵数学运算,并且支持PyTorch框架以及Llama 2或Llama 3模型,那么它必将受到市场的青睐,尤其是在英伟达GPU供应紧张的背景下,而这对于英特尔来说,无疑是一个难得的商机。  

  在训练环节,英特尔的比较采用了Llama 2 7B、Llama 2 13B和GPT-3 175B的真实英伟达数据平均值,与Gaudi 3的估算值进行了对比。为了进行推断,英特尔则结合了Llama 2 7B、Llama 2 70B和Falcon 180B的真实英伟达数据平均值,与Gaudi 3的估计数据进行了对比。

  如果计算这些性能和成本,并结合图表中呈现的相对性能数据,那么可以得出以下结论:英特尔假设英伟达H100加速器的成本为23,500美元,而如果简单估算Gaudi 3 UBB的成本,则为15,625美元。

  跟英特尔不同,分析机构观察一段时间之内的趋势与更广泛的峰值理论性能,借此找出每单元对应算力与单位性能对应的售价(二者互逆)。为此,制作了一个表格,将英伟达“Ampere”A100、H100、Blackwell B100以及英特尔的Gaudi 2和Gaudi 3加速器进行了比较,两者都是有8个加速器的基板配置。以下是具体的对比情况:  

  需要注意的是,这些数字是一个八通道主板,而不是一个设备,这将是大多数AI客户的基本计算单位。

  当然,当涉及到为这些设备及其基板集群使用计算、内存和网络适配器时,每个AI模型都有自己的独特需求和特点。实际表现肯定会因工作负载和具体设置的不同而有所差异。

  另外还从系统的角度来估算使用这些基板并添加双插槽x86服务器组合的成本。这套服务器组合拥有2 TB主内存、400 Gb/秒InfiniBand网卡、两块1.9 TB NVM-Express闪存驱动器(用于操作系统)和八块3.84 TB NVM-Express闪存驱动器(用于将本地数据传送至UBB)。

  上述表格清晰地展示了这五种服务器的相对性价比。在比较时统一采用了FP16精度,这是一个比较公平的基准,同时并未激活设备上的任何稀疏性支持,因为并不是所有矩阵和算法都能充分利用这一功能。

  英伟达公司创始人黄仁勋在去年的主题演讲中明确指出,HGX H100基板的售价为20万美元,这一价格并且与市场上完整系统的价格一致。而英特尔公司最新透露,配备8个Gaudi 3加速器的基板售价为12.5万美元。在性能方面,H100基板额定速度为每秒8千万亿次,而Gaudi 3基板则达到了每秒14.68千万亿次。这意味着,对于每千兆次浮点运算,H100的成本为25,000美元,而Gaudi 3的成本仅为8,515美元,英特尔在此方面展现了高达2.9倍的性价比优势。

  如果用户构建一个系统,并添加那些成本昂贵的CPU、主内存、网络接口卡和本地存储设备,那么成本的差异就会逐渐缩小。如上所述,配置英伟达H100系统的成本可能在375,000美元左右,即每千万亿次浮点运算46,875美元。同样配置的Gaudi 3系统的运行成本约为27.5万美元,每千万亿次浮点运算的成本为18733美元。英特尔在此方面展现了2.5倍的性价比优势。

  从表中可以看出,在16位浮点精度上,Gaudi 3与英伟达的Blackwell B100性能相当,后者将于今年晚些时候上市。然而,在8位浮点精度方面,Blackwell更具优势,Blackwell也支持4位浮点精度,Gaudi 3目前不能支持。

  如果将把支持、电力、环境和管理成本都算进去,那么英伟达公司和英特尔公司的GPU之间的差距开始缩小,但英特尔显然在某些精度上有相当可观的性价比优势。

  因此,从系统级别考虑问题,用户可以在自己的模型和应用程序上进行基准测试。

  最后再探讨一下英特尔公司的收入和Gaudi 3的潜在市场动向。经过计算,发现5亿美元的资金足以生产大约4000块服务器主板和32000个Gaudi 3加速器。而对于剩余的15亿美元,几乎可以肯定的是,英特尔将用于Gaudi 3的销售,而不是销售积压的未交货产品。这意味着,英特尔公司并没有将这15亿美元收入囊中,而是代表着销售12000块以上服务器主板的机会,相当于售出高达96000个加速器。

  相比之下,英伟达公司今年预计将销售数百万个数据中心GPU,尽管其中许多并不是H100、H200、B100和B200这样的高端产品,但其销售规模仍然十分可观。这进一步证明了数据中心GPU市场生机勃勃的活力和巨大的潜力。

  参考链接:

  https://www.nextplatform.com/2024/06/13/stacking-up-intel-gaudi-against-nvidia-gpus-for-ai/

1
相关文章