Top100爆冷门天河一号力压星云再夺魁-服务器专区

Top100爆冷门天河一号力压星云再夺魁

作者：孟庆编辑：孟庆 2010-10-28 11:19 IT168网站原创

【IT168 专稿】在10月28日召开的2010年全国高性能计算学术年会上，中国高性能计算机排行榜Top100再度被刷新。国防科大研制的“天河一号”以2507万亿次的Linpack成绩再度取得了第一名，而此前被众人看好的曙光“星云”则以1271万亿次的成绩屈居第二，爆出了本次Top100排行最大的冷门。

“天河一号”再度夺魁系统规模今非昔比

据了解，国防科大自主研发的“天河一号”自去年以峰值性能1206万亿次夺得国内TOP100第一名以来（详见这里），经过对CPU和Tesla计算卡的升级以及今年新加入的国产飞腾系列处理器（详见这里），使其计算性能猛增到2507万亿次。

Top100爆冷门天河一号力压星云再夺魁

目前“天河一号”配备了14336颗至强X5670处理器（32nm工艺，六核12线程，2.93GHz主频），而GPU方面则采用了7168块基于Nvidia “Fermi”架构的Tesla M2050计算卡（主频1.15GHz，双精度浮点性能515Gflops、单精度浮点性能1.03Tflops）。而2048颗国产飞腾处理器的使用则使“天河一号”如虎添翼（八核64线程，主频1GHz），后面我们会详细阐述。

Top100爆冷门天河一号力压星云再夺魁
▲“天河一号”的CPU计算节点，四路节点上每个至强X5670处理器（32nm工艺，六核12线程，2.93GHz主频）拥有六根内存，以4Gb*6*4来计算，单CPU计算节点的内存容量可以达到96Gb，如果采用8Gb DDR3内存则单节点内存容量可以达到192Gb之巨。

Top100爆冷门天河一号力压星云再夺魁
▲“天河一号”采用了国产处理器“飞腾”，65nm工艺，八核64线程，晶体管数目达到3.5亿个。芯片主频800Mhz-1Ghz，拥有3个HT直连总线接口，4个独立的DDR3内存通道，带宽达到32GBps，8个PCIE 2.0通道，从规格上看要么是采用了微处理器内核设计，要么就是超低缓存设计（晶体管数量决定了两者只能取其一）

相比去年“天河一号”仅有5120个CPU（其中E5540(2.53GHz)处理器4096个，E5450(3.0GHz)处理器1024个）和5120个AMD HD4870组成的GPU计算模块（详见这里），现在的“天河一号”在性能上的飞跃也就不足为奇了。

“天河一号”有秘密武器 “星云”爆冷有三大原因

那么曙光“星云”超级计算系统作为曙光6000的一部分，今年5月底在Top500榜单上荣获第二名的好成绩，也同样采用了至强5600系列处理器和“Fermi”架构的Tesla计算卡，为什么会“悲情”的被爆冷呢？——原因有三个方面：

首先是规模上，“星云”拥有了120640个处理核心（CPU和GPU数量之和，详见这里）；而现在的“天河一号”CPU部分拥有202752个核心（CPU核心数102400个，GPU核心数100352个），规模上较“星云”高出59.5%。内存规模也达到了262TB，后台存储容量为2PB。

其次是处理器选型上，“星云”采用的是较低主频的X5650（主频2.66GHz），而“天河一号”则采用了X5670（主频2.93GHz），值得注意的是X5670的功耗与X5650相同，均为95W（详见这里）；而GPU方面“星云”采用的是C2050（T3600刀片机箱每个插了10块C2050计算卡），而“天河一号”采用的是M2050计算卡（一个字母之差区别在何处？点击这里和这里分别查看两款计算卡的区别，其实就在于GPU附带的3G存储器的存储频率——1.5Ghz与1.55Ghz的区别）。

Top100爆冷门天河一号力压星云再夺魁
▲“天河一号”的GPU计算节点，Nvidia “Fermi”核心Tesla M2050系列计算卡，拥有448个流处理器核心（CUDA核心），主频1.15GHz，专用ECC存储器是DDR5规格的3Gb缓存，缓存频率高达1.55GHz，这使得GPU内数据存储速率达到了148Gb/s。由于散热和功耗等因素，一个GPU计算节点中只放置了两块M2050计算卡。

第三点也是最核心的区别——“天河一号”采用了双向160Gbps私有高速通讯网络，远远超过了“星云”所采用的QDR Infiniband 40Gb的通讯速率，可以说这种通讯速率上的秘密武器才使得“天河一号”得以集成如此多的处理器和GPU计算卡。而国产“飞腾”处理器的加入，不但有助于计算性能的提升，也为国产处理器进入大规模实际应用做了示范。

Top100爆冷门天河一号力压星云再夺魁
▲“飞腾”处理器近照披露

Top100爆冷门天河一号力压星云再夺魁
▲传说中的高速互联交换芯片“NRC”和接口芯片“NIC”。其中NRC芯片片内延迟只有单端口双向带宽高达160Gbps——是Infiniband QDR传输速率的2倍，而NRC单芯片上拥有16个这样的交换端口，其峰值速率达到2.56Tbps。通信芯片由于稳定性和制程局限，往往不采用最新的制程工艺，该NRC芯片采用了90nm工艺制造，晶体管数目大约为4.6亿——细心的读者可以发现其比“飞腾”处理器晶体管要多（再度认为飞腾的微内核专用性更强）

————————————————————————————————————————————

要了解更多内容，请查阅IT168专题报道。针对此次大会，今年还引入了微博互动方式，大家可以参加HPC China 2010大讨论，有三种参加方式：

1.直接登陆新浪微博，在所要发布的微博开头写#hpcchina2010#，再加上要说的话，点发布即可。

2.输入hpc.it168.com，打开HPC China 2010专题页面，点击微博互动区的“参与讨论”按钮。

3.手机用户可以直接发送短信参与，在短信开头写#hpcchina2010#，再加上你要说的话，发送至移动用户：1069 009 009；联通用户：1066 8888 66；电信用户：1066 8888 66。

关注我们

Top100爆冷门 天河一号力压星云再夺魁

Top100爆冷门天河一号力压星云再夺魁