服务器 频道

孙凝晖:百万亿次超级计算机如何创新?

2、创新的设计主要体现在三款核心芯片上,曙光5000具有(百)千万亿次计算机的实实在在的自主知识产权。

    从曙光一号到曙光4000,计算所和曙光公司在高效能超级计算机的研制过程中,曾设计、流片过Wormhole Routing 等关键芯片,但基本上没有量产。目前大量销售的曙光高性能计算机的各种芯片几乎都是进口的,CPU等芯片占到高端计算机成本的80%以上。

    曙光5000与过去我们研制的高端计算机的重要区别是,(百)千万亿次计算机的三款核心芯片都将由计算所和曙光公司自己设计。这三款核心芯片是:龙芯多核CPU,连接一块板上多个CPU的系统控制器(System Controller),和连接各节点的交换芯片(Switch)。这三款核心芯片难度都很大。如果能按计划如期完成,我们可以十分自信地宣布,中国已完全掌握了高效能超级计算机设计的核心技术。

    在我们的研制计划中,这些芯片不是仿制国外的芯片,必须要按照HPP体系结构的要求独立设计,包含许多原始创新:例如:我们争取在世界上首次实现CPU内多核之间的寄存器级(RTL)数据传输机制,使得CPU内通信速度有可能超过计算速度,从根本上消除通信瓶颈;系统控制器和交换芯片中内置可直接寻址的Test & Set硬件锁,可显著提高进程间同步的效率,硬件“同步”也会大大提高并行应用同步的效率;利用全局地址空间实现“赋值”式通信,降低CPU中核与核之间的通信延迟;利用多层网络提高了多核与多核之间并发数据交换的聚合带宽和吞吐率,打破通信壁垒等等。

    必须指出,研制( 百)千万亿次计算机在工程实现上难度很大,不同于一般的科研课题。曙光5000必须解决一系列世界性难题:如千万亿次计算机的全系统模拟器;高频数字模拟混合、光电混合信号;多核心(Kernel) 操作系统容忍单个处理器故障,能够支持节点之间的隔离性;对消息传递机制和全局地址空间两种并行计算模式同时提供有效支持;上千个客户端在多用户并发访问模式下保持稳定的I/O性能;改造现有算法并利用并行编译技术使应用与千万亿次计算机的体系结构相适应,以达到数万个处理器的可扩展性等等。这些都是国际学术界和企业共同面对的难点。我国在工程技术上与国外还有较大的差距,掌握这些技术还需要我们付出艰苦的努力。

0
相关文章