在人工智能浪潮以超乎想象的速度席卷全球的今天,算力已成为驱动技术突破与产业变革的核心引擎。然而,随着大模型参数从千亿迈向万亿、训练数据从TB级跃升至百TB级,传统计算架构的瓶颈日益凸显:芯片性能提升放缓,集群扩展效率低下,通信时延成为系统性能的“天花板”。
近日,笔者有幸围绕灵衢这一技术与华为进行了深入交流,华为系统阐释了其历时六年研发的超节点架构与灵衢互联协议,这不仅是一次技术发布,更是一次对未来算力体系的重塑宣言。
为什么需要“超节点”?算力困境与架构突围
“单芯片能力有限,多样化算力协同是必然趋势。” 华为集群计算总经理朱照生在沟通中反复强调这一点。随着摩尔定律走向终结,单纯依靠制程工艺提升芯片性能已不现实。而传统服务器+以太网堆叠的集群模式,在规模扩展中面临通信带宽不足、时延高、线性度差等问题,导致规模越大,效率越低。
更严峻的是,AI推理场景对时延提出极致要求。金融反欺诈需在10毫秒内完成响应,大模型Token生成若不能从目前的50毫秒降至10毫秒以下,用户体验将大打折扣。这些需求已超出传统架构的能力边界。
华为的答案是:超节点架构。
所谓“超节点”,不是简单地把多个硬件用线缆连在一起,而是通过灵衢协议,将CPU、NPU、GPU、内存、存储、DPU、交换机等七大核心组件深度互联,在逻辑上形成“一台超级计算机”,实现资源全局池化、统一编址、平等协同。
灵衢:推开网络与架构之间的“墙”
灵衢协议的核心突破,在于它打破了计算机网络与计算机体系结构之间的界限。
华为专家在沟通会中用一个生动的比喻解释:“传统协议如同方言,不同设备之间需要翻译才能沟通;而灵衢是普通话,所有组件讲同一种语言。”
从技术实现上看,灵衢协议栈下三层,即物理层、链路层、网络层,借鉴了计算机网络的设计,确保信号传输的可靠与距离;而从传输层往上,则回归计算机体系结构的行为模式,支持内存访问、信息通信、统一内存管理等。这种“跨域融合”使灵衢实现了“电的可靠,光的距离”,既保证了高速信号在长距离传输中的稳定性,又实现了跨机柜的无阻塞互联。
与市场上已有的NVLink、CXL、RoCE等互联协议相比,灵衢的最大区别在于其设计初衷的全局性。朱照生指出:“其他协议多是为特定场景设计,而灵衢从第一天起就瞄准整个算力基础设施。”这也使其成为目前业界唯一能够覆盖从单机、超节点到大规模集群全场景的归一化协议。
超节点不是“越大越好”,而是“越合适越好”
在沟通中,多次问到超节点的“最优规模”问题。朱照生的回答颇具启发性:“我们曾被事实教育——DeepSeek模型需要288个专家,这意味着超节点至少需要288卡。如果我们硬性设定64卡或128卡为甜点,反而会限制模型发展。”
华为的策略是不设限。从已商用的Atlas 900 A3(384卡)到明年将推出的支持8192卡的Atlas 950 SuperPoD,华为正在构建一个“规模可伸缩”的算力底座,让模型开发者不再受硬件约束,自由设计并行策略。
但朱照生也强调,超节点并非只服务于“超大模型”。在推理、推荐系统、OLTP数据库等场景中,同样能带来显著收益。华为推出的TaiShan 950 SuperPoD是业界首款通用计算超节点,大幅提升了数据库事务处理与虚拟机热迁移性能。
生态的关键:协议开放与第三方验证
“开源开放”是华为推进灵衢生态的核心策略。与英伟达NVLink等私有协议不同,灵衢从协议栈到参考架构全面开放,并在官网提供完整的技术文档。
更关键的是,华为还推动了第三方协议验证测试仪的建立。任何厂商基于灵衢开发的芯片或硬件,都可以通过独立机构验证其是否符合协议规范。这一点在沟通会上被多次强调,也被业界视为灵衢能否真正走向产业化的关键。
朱照生透露,在HC大会之后,多家国内芯片、IP与设备厂商主动与华为接洽,表现出“出乎意料”的合作意愿。“他们发现灵衢协议比想象中更完整、更工程化,甚至解决了他们下一步产品化中可能遇到的验证难题。”
挑战仍在:电与热是比布线更难的工程难题
尽管灵衢在协议层解决了通信效率问题,但超节点在实际部署中仍面临严峻挑战。朱照生直言不讳:“目前最大的难题不是布线,而是电供得进去、热散得出来。”
传统数据中心单机柜功耗约为2.5千瓦,而当前AI算力柜普遍超过50千瓦,未来更将迈向200千瓦、600千瓦。这对供电与散热系统提出了极高要求。华为两年前已研制出600千瓦液冷机柜,但判断当前产业配套尚未成熟,未来2–3年内,200–300千瓦是更合理的部署规模。
为此,华为推出了适应企业现有机房条件的风冷超节点Atlas 850,以及全液冷的Atlas 950,形成全场景覆盖的产品体系。
笔者观察:灵衢的野心与算力的未来
灵衢不仅是华为在算力领域的一次技术突破,更是其对未来计算架构的一次定义。它试图从根本上重构计算机的形态,从单机到超节点,从分散到池化,从异构到统一。
在AI推动算力需求每3–4个月翻一番的今天,灵衢与超节点架构代表了一种更集约、更高效、更可持续的路径。而其真正的成功,将取决于生态的共建,有多少伙伴愿意采用这套协议,有多少客户能从中获得业务价值。
“我们不做唯一的玩家,”朱照生说,“我们希望灵衢成为算力世界的普通话,推动整个产业走向协同与共赢。”
正如通信协议曾统一了全球互联网,灵衢或许正走在统一全球算力底座的路上。这条路刚刚开始,但方向已经清晰。