近日,2025CCF全国高性能计算学术大会(HPC China 2025)期间,中科曙光发布了国内首个行业标准化超智融合算力平台:Nebula 800。
作为首个遵循《超智融合集群能力要求》行业标准研制的高性能计算集群产品,Nebula 800打破了超算、智算的技术边界,实现了二者在算力平台上的深度融合,破解非融合系统计算精度不全、应用普适性差、超算与智算建设“孤岛”、异构资源管理调度困难等问题,为传统超算方法和人工智能新技术在数据、算法、业务层面的深入融合提供了坚实基础,有效支撑材料、生物、气象、工业等行业用户利用高性能计算+AI技术的创新进程。因其突破创新性,Nebula 800荣获2025 CCF全国高性能计算学术大会技术创新奖。
伴随人工智能技术发展,为满足AI4S等前沿创新需求,科学计算、工程计算与人工智能大模型训练推理正加速走向融合。
然而面对多元、多场景、复杂计算任务需求,国内缺少一个能高效满足超智融合全栈创新的高性能计算集群产品,为此曙光推出了Nebula 800超智融合算力平台。
Nebula 800采用了紧耦合分布式异构并行体系结构,遵循存、算、传一体化紧耦合协同设计理念,采用全精度异构加速部件、统一高效存储、先进高效液冷等新技术,配套完备的异构加速软件栈、集群智能管理调度平台和全生命周期服务,可赋能科教、材料、气象、石油、生物等行业用户,通过一个平台实现科学计算、工业仿真、大模型训练/推理、AI for Science等多元应用场景的统一支撑。
Nebula 800具备六大优势:
1、多精度算力供给:支持双精、单精、半精、整形、混合精度运算,适配科学计算、AI训推、AI4S、科学大模型等多元应用场景,一芯多用。
2、全局性能深度优化:以GPU为中心,通过高性能层次化互连网络、统一分布式通信库、存储极速IO优化,以及算法-硬件协同设计优化,显著提升全局系统性能和应用性能。
3、超智算全栈基础软件:自底向上构建GPU加速计算全栈基础软件,为高性能计算和AI应用开发提供一体化支持。
4、高效液冷散热解决方案:结合冷板、相变冷板、浸没相变等多种先进液冷技术与能源动态优化机制,提高部署密度,降低高负载运行能耗。
5、智能运维与管理调度:基于大模型实时感知集群状态,实现问题秒级定位与自动修复,支持多类型计算负载融合调度。
6、丰富经验与一站式服务:依托30年高性能计算技术积累,提供可定制、一站式、全生命周期服务。
Nebula 800所遵循的《超智融合集群能力要求》行业标准,是我国首份针对超智融合技术的规范性文件,由中国信息通信研究院、中国智能计算产业联盟、中科曙光共同牵头发起,并组织专家研讨编写。
其首次系统性规定了超智融合算力平台的基础能力、平台能力、系统管理能力和配套能力的相关要求,并就超智融合算力平台的设计、建设、运营及评价给出了详细规范和指引。
目前,曙光Nebula 800及相关超智融技术方案已在30多个行业落地,并助力如中国商飞、四川农业大学、中国石化、中山大学附属第一医院等企业与高校在智能制造、生命科学、石油勘探、新材料等领域开展AI4S前沿应用创新。