服务器 频道

走近全球最快的超级计算机:IBM走鹃

    【IT168 专稿】走鹃(Roadrunner),一种生长在北美洲西南部地区的杜鹃鸟,常见于在美国德州以及新墨西哥地带的荒原上,它的奔跑速度非常快,每分钟可以跑500多米,抓食蜥蜴、蚊虫、响尾蛇,动作非常敏捷,而且它奔跑的时候,会发出“哔、哔、哔”的声音,像汽车喇叭一样,好似在说,我来啦,我来啦,快让道!

    6月18日,第31届全球超级计算机TOP500排行榜在德国德累斯顿的第23届国际超级计算大会(ISC’08)正式公布。一台由IBM公司制造、安装于新墨西哥州北部美国能源部洛斯阿拉莫斯国家实验室 (Los Alamos National Laboratory ,LANL) 、代号为“Roadrunner”的系统,以1.026 petaflop/s(千万亿次浮点运算每秒)的成绩成为首台打破petaflop/s Linpack门槛的超级计算机,从而宣告高性能计算领域迈入了每秒千万亿次时代!一个崭新的、充满激情与梦想的时代! 

    正如走鹃所象征的那种“不断奔跑向前”的精神一样,创新的IBM RoadRunner远远地跑在了全球超级计算机领域的最前沿!
    “对我来说,打破千万亿次大关就象是一位运动员在百米赛跑中跑出了9.5秒的成绩,这是一个每个人都在梦想但实际很难达到的性能水平。”ISC大会主席、TOP500排行榜的创始人Hans Meuer教授说,“这已经是ISC第三次见证HPC系统性能实现1000倍的增长。20年前,在1986年,具有传奇色彩的Cray 2实现了1 gigaflop/s(10亿次浮点运算每秒)的性能,也就是那年的6月份,我们举行了第一届ISC。11年后,Intel的ASCI Red系统登上了TOP500排行榜的榜首,它是第一台性能达到teraflop/s(万亿次浮点运算每秒)的机器。而今天,RoadRunner再次打破了千万亿次每秒的性能大关,并成为第31届TOP500排行榜的第一名。”

千万亿次机用来做什么

    在今年5月底,RoadRunner系统在运行Linpack benchmark测试时跑出了1.026 petaflop/s的最高性能。Linpack benchmark测试的是系统在解决线性方程组时的能力,总共要运算两百万个方程式。6月9日,IBM官方正式对外宣布了这一消息。其计算性能是前一届TOP500第一名:美国Lawrence Livermore国家实验室的IBM 蓝色基因/L超级计算机的两倍多。

    那么,超过1 petaflop/s是个什么概念呢?粗略地说相当于大约10万台笔记本电脑。美国国家核安全局局长Thomas Agostino打了个形象的比喻:如果让全世界60亿人每天24小时、每周7天执行纯手工计算,那么需要46年的时间才能完成Roadrunner一天的工作量。

    花费1.33亿美元的Roadrunner是在纽约州的IBM Poughkeepsie研究中心进行建造、检测、调试和运行Linpack benchmark的。在今年夏天晚些时候,这套重达250吨的宠然大物就会进驻其最终安装地点——新墨西哥州北部美国能源部洛斯阿拉莫斯国家实验室。在这里,它会被美国国家核安全局(National Nuclear Security Administration ,NNSA) 用来确保美国核武器储备的持续发展、安全和可靠性,包括模拟核爆炸后零点几秒的行为状态。自上一次物理核试验以来,已经过去了15年,在这期间,NNSA一直在使用计算机模拟来测试国家的核武器。

    “跟我所知道的其他任何一家科技企业相比,这些模拟试验用到了更多物理学、化学和材料科学方面的技术。”NNSA研究开发和模拟实验室主任Demitri Kusnezov说,“它每年需要使用最大型的计算机系统来模拟非常复杂的问题。Roadrunner是我们在这方面最新的一套工具,相信它是一个有里程碑意义的成就。”

    在执行武器模拟之余,Roadrunner也会用于航天、能源、人类基因、纳米和气候方面的研究。IBM的一个应用小组已经在模拟人类大脑方面达到了petaflop的性能水平。计划2009年早期在Los Alamos实验室的一些测试项目会用到一些开源的代码。这些应用包括模拟生物燃料纤维素分子碎裂(molecular breakdown of cellulose for biofuels)、超新星光变曲线(supernova light curves)、等离子物理的三维磁体重联(3D magnetic reconnection in plasma physics)和金属纳米线的时间演化(time evolution of metallic nanowires)。

创新的混合型设计

    从架构设计上来看,和许多传统超级计算机最大的不同之处在于Roadrunner是一种混合型系统(hybrid supercomputer ),使用两种不同的处理器架构:X86架构的AMD双核Opteron(皓龙)处理器和Power架构IBM Cell处理器。通常的超级计算机一般都是只用一种处理器,这样才便于设计和编程使用。

    作为一台超级计算机,Roadrunner也可以被认为是一套带有CELL加速器的Opteron集群。应该说,Opteron是一款不错的通用型处理器,在高性能计算集群中比较流行,也容易编程。但仅依靠Opteron自身的力量,其性能不足以达到千万亿次每秒的水平。建造这样一套系统,需要至少多20倍的处理器,而且对体积、功耗、散热等方面的要求也极高。这也是为什么要使用Cell处理器的原因之一。从性能上来看,CELL比Opteron要强近30倍,但在其他方面如应用开发、操作系统运行、与其他计算机节点通信等方面要弱。也就是说仅仅依靠CELL处理器要构建这种规模的超级计算机也是不现实的。

    因此,Roadrunner整合了AMD的双核Opteron处理器和全新的IBM Cell (PowerXCell 8i)加速处理器。Roadrunner总共拥有130536个计算核心(比最初计划的约1760000个少很多),包括12960颗改进版IBM Cell核心以及6948颗双核AMD Opteron处理器。从功能上看,皓龙处理器负责标准的运算处理如文件系统的I/O,而PowerXCell 芯片主要加速数学和CPU密集型运算。这跟AMD的Torrenza开放平台的思路非常接近。从性能上看,正是这些CELL处理器承担了大多数计算重任——安装在计算刀片中的6000多个Opteron处理器仅贡献了44万亿次每秒(teraflops)的性能,而12000多颗CELL芯片贡献了1332万亿次,注意,这些数值指的是峰值性能。其稳定持续的Linpack结果是1026万亿次浮点运算,刚好突破1千万亿次的门槛。

    由于大部分计算性能是由高性能CELL处理器提供的,所以系统的总体节能效果非常好。根据IBM,Roadrunner的总功耗是390万瓦特(megawatts),其每瓦特性能是376 megaflops,比基于PowerPC的蓝色基因/P(350 megaflops/watt)还要好。当前,基于至强处理器、节能效果优秀的超级计算机集群的能效也只不过是大约每瓦150 megaflops。

七年研发历程

    RoadRunner由洛斯阿拉莫斯国家实验室的Andrew White博士和IBM的Don Grice博士领导团队合作研制成功。Roadrunner的研发历时了7年之久,从2002年开始研发,2006年开始联机。由于采用了很多创新设计和复杂的结构,直到2008年才全部完成。

阶段1

    第一阶段是建立一个标准的基于Opteron处理器的集群系统,并借此评估下一步继续扩容和向混合型版本转变的可行性。在这一阶段,Roadrunner达到了71万亿次每秒的性能,而且自2006年起就在Los Alamos 实验室投入运行,用于尖端武器模拟。即便是在这一阶段,Roadrunner就已经是一台“可怕”的超级计算机了,在当时的全球最新超级计算机TOP500中可以排进前10位。

阶段2

    第二阶段就是“AAIS” (Advanced Architecture Initial System)计划,在原有系统的基础上,使用老版本的CELL处理器建立了一个小型的混合型机器。这一阶段主要用于为混合结构建立原型应用。它在2007年1月联机上线。

阶段3

    第三阶段的目标是达到超过1 petaflops的稳定性能。在设计中加入了更多的Opteron节点和新的PowerXCell 处理器。这些PowerXCell 处理器比第二阶段中使用的CELL处理器在性能上要强5倍。Roadrunner在IBM纽约州的Poughkeepsie研究中心最终完工,在那里,当它在2008年5月25日进行第四次测试时,突破了1 petaflops的性能门槛。这套完整的系统将于2008年夏季运送至在最终地Los Alamos 实验室,在那里会进行应用软件调试,预计到2009年会最终完成。

Roadrunner的硬件构造

    Roadrunner系统由18个CU(connect units,连接单元)组成。每个CU包括180个计算节点,一个有288端口InfiniBand DDR交换机(Voltaire的20GB/秒InfiniBand交换机),在整个系统中实现光纤通路互连。每一个计算节点是一个 "TriBlade" 刀片系统,由一个双路双核Opteron的LS21刀片和两个双路QS22 CELL刀片连在一起。在内部,每个Opteron内核与一个CELL芯片通过一个专有的PCIe连在一起。CU中节点之间的通信全通过InfiniBand,而系统与2 petabytes外部存储之间的通信采用的是10GbE(万兆以太网),存储系统由Panasas提供。

TriBlade

    逻辑上看,一个TriBlade包括带有16GB内存的两个双核Opteron处理器和带有16GB内存的4颗PowerXCell 8i芯片。从物理上看,一个TriBlade包括一个LS21Opteron刀片,一个扩展刀片,两个QS22 CELL刀片。LS21有两个1.8GHz的双核Opteron处理器和16GB内存,每个CPU有4GB内存。每个QS22有两颗PowerXCell 8i芯片,主频为3.2GHz,带有8GB内存,同样每个CPU有4GB内存。扩展刀片通过四块PCIe x8卡把两块QS22与LS21连在一起,每个QS22有两个连接。它还通过一个Infiniband 4x DDR卡实现与外部的连接。三个TriBlade装进一个BladeCenter H机箱。

点击看大图

CU

    一个CU由装满TriBlade的60个BladeCenter H组成,也就是总共有180个TriBlade。所有的TriBlade都和一个288端口的Voltaire ISR2012 Infiniband 交换机连在一起。每个CU可以通过12个System x3755访问Panasas文件系统。CU的系统信息如下:

360个双核Opteron,带有 2.88 TiB RAM
720个双核PowerXCell 8i,带有2.88 TiB RAM
12个带双万兆以太网的System x3755
288端口 Voltaire ISR2012交换机,带有192 Infiniband 4x DDR连接 (180 TriBlades 和12个 I/O节点)

Roadrunner 集群

    最终的集群由18个CU组成,通过另外8个 ISR2012 第二层交换机连在一起。对于每个第二层交换机,每个CU通过12个uplinks 连接,这样总共有96个uplink连接。总个的Roadrunner 集群包含:

6,480 Opteron核心,51.8 TiB RAM (在3,240 LS21 刀片中)
12,960 Cell 核心,51.8 TiB RAM (在6,480 QS22 刀片中)
216 System x3755 I/O 节点
26 288-port ISR2012 Infiniband 4x DDR 交换机
296 机柜,占地面积约557平方米
390万瓦特电耗

点击看大图

软件释放硬件潜能

    尽管硬件设计上是很奇特的,但由于在软件方面做了大量的工作,使得应用和开发变得简化。IBM Roadrunner首席设计师Don Grice相信,多核、异构计算是未来趋势所在,至少在未来10年内是如此。不过,他也认为,释放硬件性能的关键在于要开发出可以充分利用所有处理性能的软件。

    Roadrunner成了全球先进台配置Cell处理器的混合式超级计算机,也使得它需要三种不同的编程工具,程序员们也必须仔细考虑如何让十几个颗核心如何高效率地同时运行。

    IBM使用了其内部开发的软件开发工具套件(SDK)和开源软件来充当Roadrunner的应用平台。这一软件模式基于标准的MPI,每一个MPI任务使用了一个Opteron核心和一个CELL处理器。IBM的SDK DaCS库在CELL和Opteron之间实现了底层的协作,而在外层,Red Hat Linux 和xCAT 集群管理软件提供了应用的操作环境。

    要把这些混合型机器的性能释放出来,系统内存优化是一个非常关键的因素。“这看起来和我们当初从共享内存转向分布式内存的感觉非常相似,”Grice谈道,“现在我们需要解决内存带宽wall和异构核心的问题。”

    Grice承认,他们已经建立的软件模式只是构建易编程、混合型系统(如Roadrunner)的第一步。当你要把多种计算技术结合在一起(异构指令集heterogeneous instruction sets, 多核处理器multicore processors, 向量SIMD单元vector SIMD units, 局部存储local memory stores, explicit DMA, 片上芯片/片上内存网络on-chip CPU/memory networks, 远程加速器remote accelerators 和集群计算cluster computing),开发人员就需要一个框架来保证不同层面硬件的独立性。在后续的版本中,IBM会引入新的编程语言和编译器/runtime技术。

小结:超级计算机性能十年增长1000倍

    超级计算机性能每大约十年增加1000倍,Roadrunner再次印证了这一点,让计算机从TFlops进入了PFlops时代,而接下来将是EFlops、ZFlops、YFlops和XFlops——10的27次方。可见,超级计算机性能的发展速度已经快于摩尔定律。这也使得HPC业界和用户需要不断地思考:有哪些应用可以运行在这些优异的系统上面?更强的性能意味着你在进行计算机模拟时可以获得更高的精度,运算某一任务的时间更短。正如Grice所言,“一项需要Roadrunner运行一周来完成的工作,在10年前的一台机器上可能要跑上20年。”

    Hans Meuer教授根据对TOP500历史数据分析后预测说,到2015年,也就是8年后,TOP500排行榜中将全部是千万亿次系统!第一台Exaflop/s(1Exaflop/s等于100万Teraflop/s)计算机也将在2019年出现在TOP500上。

    事实是否如此,让时间来证明吧!
0
相关文章