孙凝晖:百万亿次超级计算机如何创新?-服务器专区

孙凝晖:百万亿次超级计算机如何创新?

作者：中科院计算所系统结构研究部主任编辑：洪钊峰 2007-06-13 09:53

【IT168 特稿】自2004年研制成功曙光4000A高性能计算机以后，中科院计算所没有承担新的计算机研制任务。在这两年多时间里，科学院、自然科学基金和计算所投入了2000多万元，做高效能计算机的基础性、前瞻性研究，计算所已在技术上为下一代的曙光5000的研制做了充分准备，与过去研制曙光3000/曙光4000时的技术贮备相比，现在已经大不一样了。曙光公司2006年也实现了脱胎换骨，在天津建立了一流的生产线，同时公司还构建了国内知名的高性能计算机用户体验中心和可靠性测试中心，技术实力今非昔比，为曙光5000的研制提供了强有力的工程技术和产品技术支撑。曙光5000不是从市场上采购上万个PC服务器节点加商品化互连网络组成的普通机群系统，而是要从体系结构、处理器及互连芯片到组装工艺都有重大创新的超级计算机。通过研制百万亿次计算机，要证明采用我们提出的创新技术研制千万亿次计算机是可行的。计算所和曙光公司已完全有能力抓住国外大公司在处理器技术上调船头的难得机遇，实现千万亿次计算机研制和产业辐射的跨越发展。

曙光5000方案中的创新点很多，现简要描述以下三点。

1 、在世界上首次提出既能应对千万亿次科学计算又能十分有效地支持能力计算（utility computing）、应用面广的HPP体系结构（Hyper Parallel Processing）。

高效能超级计算机的主要用途有两种，一种是以最快的计算速度解决某个领域的科学问题，如IBM的BlueGene主要适用于解决蛋白质折叠计算；另一种是用于计算中心或数据中心的能力服务，即能有效地提供大量用户需要的计算、存储和I/O能力。

迄今为止，全世界还没有一种高效能超级计算机能较好地满足这两方面的要求。这是因为不同的应用需要不同的体系结构。国外已有和正在研制的高效能超级计算机的体系结构的基本思路主要是大规模并行机（MPP）、机群（Cluster & Constellation）和分布式共享存储（NUMA）三种，不管采用哪一种都有局限性。曙光5000准备采用的HPP 体系结构是计算所、曙光公司和多位国外著名学者反复研讨后提出的一种标新立异的结构。HPP是具有全局地址空间和三级并行的分布式系统，即片内是可扩展通用多处理器核并具有寄存器传输级通信机制；通过三层高速互联实现片内、节点内、系统三级并行；具有全局共享地址空间，通过节点内和节点间两级互连构成分布式系统；支持多通道并发的核到核通信；节点操作系统具有单一系统映像，并保持节点独立性；有效支持“多线程分割全局地址空间”编程模型。

通过实现以上独创技术，可以得到以下前所未有的好处：

（1）基于HPP体系结构，可通过虚拟化技术使曙光5000体现不同体系结构的优点，从应用的角度看，它既可以是MPP，也可以是Cluster或NUMA 结构的计算机系统，显著地扩大了应用范围；

（2）曙光5000能有效地支持能力计算这一计算中心和大企业需要的新型计算模式，能根据用户的需求动态地调度和优化利用计算机资源；

（3）曙光5000缓解了大规模可扩展和编程困难的矛盾，既增强了高效能计算机的可扩展性，又实现了全局共享地址空间，一定程度上克服了目前的分布式机群系统编程难的瓶颈，而且使目前商用机群上的大量应用软件可以兼容运行；

（4）目前IBM BlueGene、Cray XT4、NEC ES等高端计算机技术下移至中低端系统时缺乏竞争力，而通过采用HPP体系结构，不但千万亿次计算机具有极高的性能价格比和性能功耗比，而且向下辐射做百万亿次甚至几万亿次计算机时都有很强的竞争力，十分有利于产业化。以上这些创新点国际上千万亿次计算机研制中还没有看到，如果这些设计都能得到有效实现，曙光5000很有可能在一些方面处于世界领先水平。

第1页：应用千万亿次科学计算的HPP体系结构第2页：创新的设计主要体现在三款核心芯片第3页：低成本、低功耗和低占地面积方面的创新

关注我们