2025开放计算技术大会期间,龙蜥智算基础设施联盟(以下简称“龙蜥智算联盟”)正式成立,成为近期AI产业生态领域的焦点事件。这个由20余家AI芯片厂商、服务器厂商、操作系统厂商、大模型及应用开发商组成的联盟,以“开源开放、求同存异”为宗旨,剑指AI生态碎片化难题,试图通过全产业链协同,打造AI原生操作系统与开放兼容的AI生态体系。
在龙蜥智算联盟成立后的媒体采访中,龙蜥社区技术委员会主席杨勇、龙蜥智算联盟主席宋卓、浪潮信息系统软件产品部总经理苏志远、FlagOS社区秘书长朱其罡四位核心成员,从技术突破、生态协同、安全合规等多个维度,勾勒出了这幅AI基础设施协同创新的蓝图。
成立初衷:直面AI产业的“碎片化阵痛”
当前AI产业正经历着“高速发展与生态割裂并存”的矛盾期。大模型参数规模突破万亿,多元算力(CPU、GPU、DPU等)崛起,但芯片厂商各自为战的驱动与SDK、算法对特定加速芯片的强依赖,形成了大量“软烟囱”;万卡集群的高故障率、数据隐私泄漏风险,以及不同厂商技术标准各异,让普通企业在AI落地时举步维艰。
龙蜥智算联盟主席 宋卓
“联盟的成立,就是要把产业上下游拧成一股绳。”龙蜥智算联盟主席宋卓直言,AI技术的落地不是单一环节的创新,而是从芯片、服务器到操作系统、大模型的全栈协同。他举例,过去不同加速器厂商的API和操作系统KABI(内核二进制接口)差异巨大,仅适配工作就耗费大量人力,而龙蜥智算联盟可以通过征集API和KABI纳入统一生态建设清单,让兼容性问题得到系统性解决。
浪潮信息作为系统厂商代表,对此感受更深。浪潮信息系统软件产品部总经理苏志远提到,多元算力的适配难点不在技术本身,而在生态复杂度,“大模型部署过程中,可能会因加速器厂商提供了基于不同Python、Gcc版本编译的vLLM、Pytorch等软件,导致整个部署链条断裂”。龙蜥智算联盟的价值,正是通过统一操作系统版本、内核选型、软件包标准,让企业“跳过重复踩坑的阶段”,直接享受成熟的智算基础设施。
浪潮信息系统软件产品部总经理 苏志远
技术突破:AI原生操作系统的“渐进式革命”
“AI原生操作系统不是颠覆传统,而是一场渐进式的智能化升级。”龙蜥社区技术委员会主席杨勇的这句话,点出了龙蜥智算联盟的核心技术方向。在他看来,学术界畅想的“用大模型做操作系统内核”短期内难以落地——大模型推理的毫秒级延迟,与传统操作系统内核微秒级的资源分配效率存在数量级差距,“用智能算法解决非智能问题,成本太高”。
工业界的实践则更务实。杨勇解释,AI原生操作系统的核心是“让系统软件更好地服务AI场景”:一方面,将操作系统的非内核服务(如性能优化、运维管理)用AI 智能体重构,比如通过强化学习实现自主调优;另一方面,让操作系统成为AI智能体的“运行基座”,就像微信小程序依赖微信生态一样,让AI应用能快速接入、高效运行。
龙蜥社区技术委员会主席 杨勇
英伟达的DGX OS或许提供了参照——基于Ubuntu二次开发,深度整合自身GPU特性,形成面向AI训练推理的专用系统。杨勇认为,龙蜥的路径与之相似但更开放:“我们基于Linux生态演进,既要适配国内外各类芯片,又要整合AI推理框架、并行文件系统等工具,最终让算力调度效率和模型部署便捷性实现跃升。”
FlagOS社区秘书长朱其罡则从开源框架角度补充,其社区已构建起与CUDA相似但是开源的全栈能力,包含200多个算子,其中76%的性能超过CUDA,这些技术与龙蜥OS结合,能让AI云原生应用在集群上快速落地,这正是龙蜥智算联盟“软硬协同”的底气。
FlagOS社区秘书长 朱其罡
生态协同:在“求同存异”中平衡多元需求
20余家成员单位,涵盖芯片、服务器、操作系统、大模型等多个领域,如何平衡技术差异与厂商诉求?这是联盟运作的关键命题。
宋卓的答案是“以具体问题为锚点”:龙蜥智算联盟将成立测试兼容性标准化、性能优化与分析等工作组,聚焦实际痛点定义目标。比如性能优化,需要芯片厂商提供硬件特性、操作系统厂商做内核调优、模型厂商反馈推理瓶颈,这种全栈协作只有联盟能推动。
苏志远则强调“核心厂商的纽带作用”。浪潮信息与阿里云作为产业链中游企业,一边拉通上游加速器厂商的技术输入,一边收集下游高校、企业的需求,形成“供需闭环”。“我们不追求所有厂商想法一致,而是找到最大公约数——比如统一故障管理规范,让万卡集群的日志抓取、根因定位有章可循,这就是“求同”的价值。
这种协同已初见成效。朱其罡提到,FlagOS的编译器已适配18款加速器,而通过与龙蜥的合作,这些适配能力将快速覆盖更广泛的用户群体;龙蜥社区则通过PD分离(推理与数据分离)等技术创新,将大模型部署的性价比压榨到极致——让P集群用高端卡做推理,D集群用低端卡存数据,成本能降30%以上。
安全与合规:AI时代的“底线思维”
AI的快速发展,让安全与隐私成为不可回避的议题。杨勇介绍,龙蜥社区已构建起机密计算框架,通过加解密技术确保数据在模型交互中不被泄露,同时探索“远程证明”机制——类似网银的CFCA认证,由公信力机构作为第三方,保障计算设施提供者与数据拥有者之间的可信关系。
“数据上传到不可信环境的风险,是企业最大的顾虑。”苏志远补充,浪潮信息与阿里云在可信计算、隐私计算领域的积累,正通过龙蜥智算联盟转化为社区的开源方案,让大模型推理既能保护隐私,又不牺牲性能。
产学研联动:为AI人才“筑巢”
“AI编译器国内高校几乎没有相关课程,人才缺口巨大。”朱其罡的话揭示了产业的另一重挑战。龙蜥智算联盟的应对之策,是推动产学研深度融合:一方面,联合清华、交大、天大等高校,将工业界的实际问题转化为科研课题,比如让高校团队研究“大模型推理任务如何高效卸载到CPU”;另一方面,建设全栈培训平台,从硬件适配到系统优化,提供实训课程和案例。
宋卓提到,龙蜥智算联盟已计划走进高校开展技术分享,让学生不仅学算法,更懂产业落地的痛点——比如万卡集群的稳定性调试、不同芯片的算力协同,这些实战经验才能培养真正的AI工程师。杨勇则强调算力支持:高校获取先进算力成本高,龙蜥智算联盟可以联动企业提供算力平台,让科研创新不被硬件掣肘。
写在最后:开源协作是破局AI生态的“必答题”
龙蜥智算联盟的成立,本质上是对AI产业“封闭与开放”之争的回应。当部分厂商试图构建“芯片+OS+模型”的闭环生态时,联盟选择了一条更具挑战性但长远来看更可持续的路——以开源为纽带,让不同玩家在标准化框架下协同创新。
当然,挑战依然存在。如何让松散的社区协作产生企业级效率?如何平衡技术共性与厂商差异化竞争力?这些问题需要时间作答。但可以确定的是,在AI成为数字经济核心驱动力的今天,龙蜥智算联盟的探索,不仅是企业间的协同尝试,更是中国AI产业链从“单点突破”向“系统能力”跃升的关键一步。
未来,当AI应用像今天的移动应用一样普及,或许我们会回头发现,这场始于开源协作的智算基础设施革命,早已为那个时代埋下了伏笔。