服务器 频道

Top100爆冷门 天河一号力压星云再夺魁

    【IT168 专稿】在10月28日召开的2010年全国高性能计算学术年会上,中国高性能计算机排行榜Top100再度被刷新。国防科大研制的“天河一号”以2507万亿次的Linpack成绩再度取得了第一名,而此前被众人看好的曙光“星云”则以1271万亿次的成绩屈居第二,爆出了本次Top100排行最大的冷门。

    “天河一号”再度夺魁 系统规模今非昔比

    据了解,国防科大自主研发的“天河一号”自去年以峰值性能1206万亿次夺得国内TOP100第一名以来(详见这里),经过对CPU和Tesla计算卡的升级以及今年新加入的国产飞腾系列处理器(详见这里),使其计算性能猛增到2507万亿次。

Top100爆冷门 天河一号力压星云再夺魁

    目前“天河一号”配备了14336颗至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频),而GPU方面则采用了7168块基于Nvidia “Fermi”架构的Tesla M2050计算卡(主频1.15GHz,双精度浮点性能515Gflops、单精度浮点性能1.03Tflops)。而2048颗国产飞腾处理器的使用则使“天河一号”如虎添翼(八核64线程,主频1GHz),后面我们会详细阐述。

Top100爆冷门 天河一号力压星云再夺魁
▲“天河一号”的CPU计算节点,四路节点上每个至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频)拥有六根内存,以4Gb*6*4来计算,单CPU计算节点的内存容量可以达到96Gb,如果采用8Gb DDR3内存则单节点内存容量可以达到192Gb之巨。

Top100爆冷门 天河一号力压星云再夺魁
▲“天河一号”采用了国产处理器“飞腾”,65nm工艺,八核64线程,晶体管数目达到3.5亿个。芯片主频800Mhz-1Ghz,拥有3个HT直连总线接口,4个独立的DDR3内存通道,带宽达到32GBps,8个PCIE 2.0通道,从规格上看要么是采用了微处理器内核设计,要么就是超低缓存设计(晶体管数量决定了两者只能取其一)

   相比去年“天河一号”仅有5120个CPU(其中E5540(2.53GHz)处理器4096个,E5450(3.0GHz)处理器1024个)和5120个AMD HD4870组成的GPU计算模块(详见这里),现在的“天河一号”在性能上的飞跃也就不足为奇了。

    “天河一号”有秘密武器 “星云”爆冷有三大原因

    那么曙光“星云”超级计算系统作为曙光6000的一部分,今年5月底在Top500榜单上荣获第二名的好成绩,也同样采用了至强5600系列处理器和“Fermi”架构的Tesla计算卡,为什么会“悲情”的被爆冷呢?——原因有三个方面:

    首先是规模上,“星云”拥有了120640个处理核心(CPU和GPU数量之和,详见这里);而现在的“天河一号”CPU部分拥有202752个核心(CPU核心数102400个,GPU核心数100352个),规模上较“星云”高出59.5%。内存规模也达到了262TB,后台存储容量为2PB。

    其次是处理器选型上,“星云”采用的是较低主频的X5650(主频2.66GHz),而“天河一号”则采用了X5670(主频2.93GHz),值得注意的是X5670的功耗与X5650相同,均为95W(详见这里);而GPU方面“星云”采用的是C2050(T3600刀片机箱每个插了10块C2050计算卡),而“天河一号”采用的是M2050计算卡(一个字母之差区别在何处?点击这里这里分别查看两款计算卡的区别,其实就在于GPU附带的3G存储器的存储频率——1.5Ghz与1.55Ghz的区别)。

Top100爆冷门 天河一号力压星云再夺魁
▲“天河一号”的GPU计算节点,Nvidia “Fermi”核心Tesla M2050系列计算卡,拥有448个流处理器核心(CUDA核心),主频1.15GHz,专用ECC存储器是DDR5规格的3Gb缓存,缓存频率高达1.55GHz,这使得GPU内数据存储速率达到了148Gb/s。由于散热和功耗等因素,一个GPU计算节点中只放置了两块M2050计算卡。

    第三点也是最核心的区别——“天河一号”采用了双向160Gbps私有高速通讯网络,远远超过了“星云”所采用的QDR Infiniband 40Gb的通讯速率,可以说这种通讯速率上的秘密武器才使得“天河一号”得以集成如此多的处理器和GPU计算卡。而国产“飞腾”处理器的加入,不但有助于计算性能的提升,也为国产处理器进入大规模实际应用做了示范。

Top100爆冷门 天河一号力压星云再夺魁
▲“飞腾”处理器近照披露

Top100爆冷门 天河一号力压星云再夺魁
▲传说中的高速互联交换芯片“NRC”和接口芯片“NIC”。其中NRC芯片片内延迟只有单端口双向带宽高达160Gbps——是Infiniband QDR传输速率的2倍,而NRC单芯片上拥有16个这样的交换端口,其峰值速率达到2.56Tbps。通信芯片由于稳定性和制程局限,往往不采用最新的制程工艺,该NRC芯片采用了90nm工艺制造,晶体管数目大约为4.6亿——细心的读者可以发现其比“飞腾”处理器晶体管要多(再度认为飞腾的微内核专用性更强)

————————————————————————————————————————————

    要了解更多内容,请查阅IT168专题报道。针对此次大会,今年还引入了微博互动方式,大家可以参加HPC China 2010大讨论,有三种参加方式:

      1.直接登陆新浪微博,在所要发布的微博开头写#hpcchina2010#,再加上要说的话,点发布即可。

      2.输入hpc.it168.com,打开HPC China 2010专题页面,点击微博互动区的“参与讨论”按钮。

      3.手机用户可以直接发送短信参与,在短信开头写#hpcchina2010#,再加上你要说的话,发送至移动用户:1069 009 009;联通用户:1066 8888 66;电信用户:1066 8888 66。

0
相关文章