【IT168 资讯】曙光5000A带领中国的高性能计算登上了世界的舞台,作为曙光公司的掌上明珠,曙光5000A承载着我们太多的理想,曙光在5000A自主创新方面的成果,"四高两低"的技术特色,曙光刀片的重要突破,聂总对曙光5000A的爱惜之情溢于言表,因为曙光5000A不仅是中国高性能计算机技术上的骄傲,也是继曙光4000后中国高性能计算机商用的典范之作。曙光5000A的研发,再次证明了中国的原创能力。
曙光5000A从结构看的话,非常简练,过去高性能计算机是用互联网络给很多技术单元耦合在一起。为了增加耦合,构建了各种各样的网络,有专业网络、以太网络等。但曙光5000A,实际上大大简化了整体的网络结婚,做到了很多关键及存储多网合一,这个结构引领了未来大规模计算机的潮流。曙光5000A比较创新性提出了HPP架构,HPP的这种架构实际上体系结构上也做出了大规模处理计算机的创新。
曙光5000A的技术特点,我们肯定要从计算单元的部件讲起,整个系统当中最重要的是曙光5000A是基于刀片服务器架构的超并行处理系统,这是最最核心的计算单元。整个刀片系统全面采用自主的刀片设计,大家知道在我们机器从发展的过程中,能不能跨过刀片设计的这个门槛,也代表了曙光公司作为服务器厂商的设计能力。
曙光5000A实际上最重要的计算单元也是用这套刀片服务器系统构成的。刀片总体的架构给大家一个概念,7U的架构,每片集成了4路SMP的CPU这样的高密度设计,也走到了密度设计的前列。很多厂商里面集成了多少CPU核,但我们知道这些东西继承核的难度越来越高。
DDR模块,我们曙光可以查到,在刀片系统内部Infiniband HCA和Switch模块曙光用了这样的方法。DDR刚刚兴起,我们在相邻结点MPI延迟1.6us。那么在高性能计算里,这意味着并行效率的提升。这样可减少了50%的高速IB线缆的连接,极大提升系统的可靠性。大家担心的不光是铜缆的信号质量,大家担心铜缆对整个系统的重量,能不能形成稳定的连接。我们减少了50%,意味着设计中减少了一般的故障点。
IOE设计也带来了非常多的好处,我们整个系统提供10个PCI-E 8X的IO扩展插槽,兼容通用PCI- E板卡,成为刀片系统扩展的亮点。如果里面插上图形卡的话,整个系统就构成了加速性能,也扩展了刀片服务器的生存空间。
这是我们做的四路的AMD全新计算刀片,利用了空间设计挑战的极限,给系统布局,光了CPU内存占到3/4的空间,变成了非常高密度的设计。整个构建之后,变成了常见的1U服务器密度2.86倍。支持4颗全新64位Barcelona 4Core处理器。这可以更大的规模来解决整个工程计算当中的规模,如果我们用高速网连接的话,效率会整个降低。对于很多应用来讲,光一项设计就可以提供十几倍的计算性能提高。
另外散热仿真也是非常也是非常难处理的,我们做了可靠性工程保障,使得系统可以更加稳定、可靠的运行。这里也运用了低功耗和节能的技术,包括风扇的集中散热、供电,效率整个的划分还有就节能降耗,也可以让我们的系统进行更好的运用。
胖节点我们说一下,我们配置了1/10规模的胖节点,采用了8路的SMP结构,可以用每个CPU核访问128G内存。这两块主板是曙光自己具有自主知识产权的办理,这也是曙光在市场上形成了稳定销售,但密度没有那么高,所以工程设计的复杂性没有刀片那么强,但型号完整性来讲也体现曙光刀片设计这么多年的积累。
整个系统当中,高速骨干网络的设计,这里形成的是从技术数据上来讲,任何两个线之间的任何结点形成了全无阻塞,我们为了整体的计算性能,进行了这样的结构。同时存储系统挂到骨干网上,所以不用经过传统的IO节点的结构也可以扩展带宽。
当然系统当中从管理方面有冗余的以太网,这个网络实行的是分区的无阻塞线速,保证极少数以来以太网的应用,可以进行无阻塞的数据交换,这相对构建就比较简单了。
整个系统当中的监控管理,仍然进行了全面的集成进行全系统的管理,我们运用曙光独有的全系统管理率的一套体系,整个系统构成了完整的界面进行管理。
在存储里面,整个系统当中,系统这一次在国内也是非常有挑战性的,在整个系统当中构建一个700TB的全光纤,这是比较有挑战性的存储布局。在系统要形成70G的IO无带宽,这实际上是非常有挑战的一件事情。这是整个监控管理的一体化,我们监控管理支持异地的监控管理,变得非常简单。里面有非常丰富的各种软件的模块,包括部署系统、并行操作系统、系统监控、管理调度等等。
曙光5000A的技术特色:
曙光5000A有CPU芯片级节能、内存就能等等让能耗降下来。这是AMD的巴塞罗那的节能,我简单的讲一下。这张图是非常关键的,巴塞罗那是非常智能的做法,里面可以细化到CPU非常细节的单元,如果自己不忙都可以进行断电。CPU的节能我想更多的是曙光全面采用的是低功耗的CPU,这点来讲,在我系统设计全不变的时候,由于采用低功耗的CPU,整个系统牺牲了20%的性能,为什么?换来的是每月节能几百度的电。这来讲是我们基于客户考虑的,给客户做的设计。内存大家知道,内存节点非常多。刀片服务器,自适应智能风扇控制,根据实时功耗,确定工作电源个数,优化电源非常好的效率。另外我们也基于策略的主动防护作用。还做了计算刀片间任务调度、均衡,无作业节点的休眠等等防护。这套系统构建的时候,东方物理公司测算节能是30%。
整个系统的瑞冷机柜里,封闭的区域进行了局部的制冷,本身就是节能的重要方法。通过一个微型的散热管道,实现了热量的交换。液冷带来的最大问题是难维护,漏水。但通过系统当中给形成了循环,但是我们可以看到,插拔维护不受任何影响,这是我们实现的简易的维护。
自主知识产权
刚才刚才我们看到的是通用系统非常低的低功耗。整个系统当中,曙光并不是一个集成商,如果是集成商系统中并没有什么意思。我们既有HPP体系结构,也有主计算单元,胖节点也是有自主知识产权的,刀片主办自主设计。水冷系统系统设计定制,对定制优化部分具有知识产权,系统研制产生50余项自主专利技术。我们也很自豪的说,最早实现4路4核刀片主板设计,最早实现4路4核的高密度刀片系统,最早实现基于IOE的通用刀片系统。
在行业应用方面,大家将焦点集中在了奥运气象服务上,因为国家气象局为了更好的服务奥运,特意定制了曙光4000的机器。聂总表示,曙光高性能计算机用在气象里,有不同的客户定位的考虑,针对国家气象局、北京市气象局等等大的省局,计算水平非常高,是基于源代码做起来的。在这种情况下,机器的体系结构做的越透明能获得性能越高。但对于在各县市的气象局,基于实际情况,曙光特意开发了气象专用的计算机,这种专用计算机通过设置,可以大大提高获取气象信息的速度,并且极大的简化了常规分析的时间,给气象工作提供了非常便利的工具。聂总特意指出像北京市气象局现在因为奥运会,所以要做到每公里、每小时的天气预报,这个需要人工在里面的调试、优化,这里不简单是一个高性能硬件的问题,对应用水平的需求也是非常高的。曙光5000在系统设计中,网络互联性能,节点、网络耦合性的性能,都得到了大幅度的提升和跃进,从性能上、稳定性、可靠性、简单方便性上对于大规模的像优异、北京级,这些地方的气象应用具备非常大的竞争优势。
在会议上,记者与聂总的讨论专业而不失风趣,偶尔会意的笑声让会场的气氛十分活跃。随着国家经济的发展,对高性能计算机的需求越来越旺盛,曙光公司在促进高性能计算机产业化进程上起了巨大的推动作用,会后大家纷纷表示,对中国高性能计算的未来充满信心,对曙光的技术创新的努力做出了积极的肯定。