服务器 频道

GPU加速为主 揭秘天河一号两大系统构成

  【IT168 专稿】11月26日,2009年全国高性能算法软件研究开发研讨会,暨中国软件行业协会数学软件分会理事会年会在京召开。据了解,本届大会由中国软件行业协会数学软件分会主办,中国计算机学会高性能计算专业委员会和国家863高性能计算机评测中心协办,中科院软件所并行软件与计算科学实验室承办。


Top 100 颁奖现场

  本次大会为中国超级计算机Top100的前四名、年度性能份额总冠军以及年度系统份额总冠军颁发了奖项。其中,由中国国防科技大学研制的“天河一号”凭借其CPU+GPU的强大计算优势,以Linpack成绩563.1万亿次的成绩一举获得Top100第一名和年度性能份额总冠军两项实力派大奖。


国防科技大学计算机学院 张卫民主任

  来自国防科技大学计算机学院的张卫民主任简单介绍了组成“天河一号”的几大系统,并就其技术细节回答了现场提问。他表示,“天河一号”由硬件系统、软件系统构成。其中硬件系统由计算和加速阵列、服务阵列、互联通信子系统、I/O存储子系统以及监控诊断子系统组成。整个“天河一号”采用了多阵列可配置异构协同并行计算体系结构(MCCP)。

  据介绍,“天河一号”的主要性能来自于计算阵列和加速阵列。其中计算阵列包含2560个计算节点,每个计算节点包含2个Intel Xeon处理器(总共5120个CPU处理器,其中 E5540(2.53GHz)处理器4096个,E5450(3.0GHz)处理器1024个),每个处理器对应32GB内存。因此,计算阵列可以提供214.956Tflops的计算能力。    而加速阵列则是由AMD HD 4870显卡的GPU组成,也是2560个节点,每个加速节点包含两颗GPU(每个GPU拥有800个微内核(渲染管线)),以及2GB显存。

  “天河一号”的服务阵列主要用于提供包括登陆、编程和编译等服务,还担任资源管理和作业加载的控制功能。张卫民主任表示,该服务阵列一共512个节点,每个节点也都采用了两颗Intel Xeon处理器,每颗处理器32GB内存,但是该服务阵列不参与Linpack超算性能测试。互联通信子系统主要采用的是Infiniband QDR互联,单条链路的通信带宽为40Gbps,可以实现系统紧耦合互联和高速通信。 

  张卫民介绍表示,“天河一号”计算阵列、加速阵列和服务阵列由80个机柜组成;I/O存储子系统由7个存储机柜,64个OST(每个OST容量16TB)和2个MDS元数据服务器组成;互联子系统由13个通讯机柜组成,总共拥有13台4700交换机和64个交换刀片以二级IB QDR方式互联。

  组成“天河一号”软件系统的四大系统分别是操作系统,编译系统,资源管理系统以及并行程序开发环境。如下图所示

  天河一号的总峰值性能可以达到1206.190Tflops,其中计算阵列可以提供214.956Tflops的计算能力,加速阵列占据了大头,可以达到942.08Tflops,而服务阵列在加载完作业任务后也进入计算行列,可以提供49.152Tflops的计算性能。

 
0
相关文章