零GPU、纯CPU!当全世界都在卷显卡,中国却用“逆行”登顶世界之巅
日前,德国汉堡,ISC2026大会现场。
当TOP500榜单揭晓的那一刻,一个久违的名字重回榜首——“灵晟”。2.19EFlops的持续双精度浮点性能,不仅是世界首台突破超二百亿亿次(2EFlops)门槛的超算系统,更标志着中国超算时隔九年后重返世界之巅。
这一消息本身已足够震撼。但比登顶更值得深思的,是“灵晟”如何登顶,以及这条路径对全球超算格局意味着什么。
一条“非主流”的技术路线
翻开近年的TOP500榜单,一个趋势显而易见:GPU加速已成绝对主流。本期榜单中,配备GPU加速器的系统占比升至55.4%,AMD、英伟达的加速器几乎成为E级超算的标配。
而“灵晟”走的是一条截然不同的路。
“灵晟”超算系统总设计师、国家超算深圳中心主任、中山大学教授卢宇彤在颁奖演讲中透露,“灵晟”创新了“Online Acceleration”的全CPU架构,打破传统CPU-GPU异构架构壁垒,在CPU内部直接嵌入AI矩阵加速单元。
换句话说,它没有使用任何独立的GPU加速卡。这一选择背后的逻辑,远不止是“不用GPU”那么简单。在AMD与英伟达GPU对华出口禁令持续生效的背景下,这确实展示了国产芯片的全栈自主能力。
但更关键的是,它提出了一种新的技术哲学:与其在CPU和GPU之间搬运数据,不如在芯片层面实现超算算力与智能算力的深度融合。
图灵奖得主Jack Dongarra的评价点出了要害:中国的“灵晟”系统让世界看到了超算通向AI4Science新型系统架构的希望之光。这已不只是一次性能登顶,更是一次技术路线的宣示。
全面自主的背后,是系统工程的胜利
当然,架构创新只是“灵晟”故事的冰山一角。2.19EFlops的持续性能,需要的是全链条的突破。
从芯片层看,自研LX2 CPU集成了首颗国产HBM,内存带宽相比传统CPU提升10倍;从网络层看,自主设计的灵启高速互连网络可支持200万个端口、10万节点的超大规模组网;从系统层看,自研全栈软件将底层硬件能力以可用、可编程、可优化的方式释放给应用。
值得注意的是,在性能登顶的同时,“灵晟”还以51GFlops/W的能效比、100%全液冷散热,在GREEN500榜单中位列第50位。
这已经不是单纯“堆芯片”的时代了。超算的竞争,早已从单一指标演变为芯片、互连、存储、系统软件、散热的全栈较量。而“灵晟”在这条赛道上证明了:中国体系可以做到世界顶尖。
算力,最终还是为了用
算力再强,如果落不了地,终究只是数字游戏。
“灵晟”给出的成绩单是:在大规模并行环境下平均扩展效率84.4%,实现了超过千万核心的全系统高效可扩展运行。目前已支撑大气海洋、工程仿真、材料科学、药物发现、脑科学、科学AI、大模型推理等多领域应用。
84.4%的扩展效率意味着什么?在千万核心级别的规模下,能够保持如此高的并行效率,说明这套系统的软硬件协同已经达到了相当成熟的程度。它不是一台“跑分机器”,而是一个能够真正承载科学计算和智能计算的生产级平台。
笔者观察:时代的注脚
笔者还记得,上一次中国超算登顶TOP500,是2017年的“神威·太湖之光”。此后的九年里,美国实施了多轮对华芯片出口管制,中国也一度未向TOP500提交测试结果。
九年后的今天,“灵晟”的出现,打破了美欧超算对榜首的长期垄断。但它的意义不止于“打破垄断”。
在全球超算产业正从“算力竞赛”迈向“超智融合”的转折点上,“灵晟”用一条自主创新的技术路线,给出了一个来自中国的答案。这条路线是否会被更多国家和机构采纳,目前尚难断言。但至少,它证明了超算通向未来的路径,并不只有一条。
因此,这份榜单表明,通往领先级计算领域并没有单一的主导技术路径。“灵晟”的登顶,让这条多元化的道路更加清晰,也让世界看到:在算力竞争的新阶段,中国不仅是参与者,更可以是定义者。