服务器 频道

超级计算机:隐藏在我们身边的庞然大物

        【IT168 技术】超级计算机,指能够执行一般个人电脑无法处理的大资料量与高速运算的电脑,其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多。现有的超级计算机运算速度大都可以达到每秒一兆(万亿,非百万)次以上。“超级计算机”(Supercomputing)这名词第一次出现是在媒体“纽约世界报”于1929年关于IBM为哥伦比亚大学建造大型报表机(tabulator)的报导。

  1960年代,超级计算机由希穆尔·克雷(Seymour Cray)在Control Data Corporation里设计出来并领先市场直到1970年代克雷创立自己的公司──克雷研究。凭着他的新设计,他控制了整个超级计算机市场,并占据颠峰位置长达五年(1985-1990)。到了1980年代,正值小型电脑市场萌芽阶段,大量小型对手加入竞争。在1990年代中期,很多对手受不了市场的冲击而消声匿迹。今天,超级计算机成了一种由大型电脑公司所特意设计的电脑。虽然这些公司通过不断并购其他公司而增强了自己的经验,但除他们以外的元老公司——克雷研究——依然是超级计算机领域的巨头之一。

  超级计算机的历史

  “超级计算机”一词并无明确定义,其含义随计算机业界的发展而发生变化。早期的控制数据公司机器可达十倍速于竞争对手,但仍然是比较原始的标量处理器。到了1970年代,大部分超级计算机就已经是矢量处理器了,很多是新进者自行开发的廉价处理器来攻占市场。1980年代初期,业界开始转向大规模并行运算系统,这时的超级计算机由成千上万的普通处理器所组成。1980年代中叶,将适量的矢量处理器(一般由8个到16个不等)联合起来进行并行计算成为通用的方法。1990年代以后到21世纪初,超级计算机则主要由基于精简指令集的处理器(譬如PowerPC、PA-RISC或DEC Alpha)互联进行并行计算而实行。

  超级计算机的用途

 

超级计算机:隐藏在我们身边的庞然大物

  超级计算机常用于需要大量运算的工作,譬如天气预测、气候研究、运算化学、分子模型、天体物理模拟、汽车设计模拟、密码分析等等。不过随着互联网的发展,特别是云计算、大数据、Web2.0的发展,超级计算机的功能正在逐渐拓展。在最近发布的中国TOP100超级计算机中,有45台均应用于互联网领域。

  超级计算机的设计

  超级计算机的创新设计在于把复杂的工作细分为可以同时处理的工作并分配于不同的处理器。他们在进行特定的运算方面表现突出,但在处理一般工作时却差强人意。他们的数据结构是经过精心设计来确保数据及指令及时送达——传递速度的细微差别可以导致运算能力的巨大差别。其输入/输出系统也有特殊设计来提供高带宽,但是这里的数据传输延迟却并不重要——超级计算机并非数据交换机。

  根据阿姆达尔定律,超级计算机的设计都集中在减少软件上的串行化、用硬体在瓶颈上加速。近年来,并行应用的兴起使得超级计算机的发展开始向并行化过度。特别是NVIDIA与英特尔公司分别推出特定应用的加速器之后,并行计算所依赖的异构计算已经成为了超级计算机运行的主流模式,尽管在TOP500中还有许多设备并没有采用异构加速的模式,但这种趋势已经不可阻挡。

  超级计算机的类型

  从类别来划分,通用超级计算机大约可以分为以下三种类型:矢量处理机器能为大量数据同时进行同样的运算、丛集式处理器特别创建连接处理器及记忆体的通信网络和大量服务器所组建的集群。在以上三种划分中,由X86平台服务器组建的集群已经占据了超级计算机组成模式的主流,目前世界最快的超级计算机天河二号就是采用大量服务器和加速器所组建的集群。

  超级计算机的速度单位

  超级计算机速度以每秒浮点运算次数"FLOPS"(floating-point operations per second)来作量度单位,常见的表示电脑中的峰值或速度用的单位英汉对照如下:

  一个MFLOPS(megaFLOPS)等于每秒100万(=106)次的浮点运算

  一个GFLOPS(gigaFLOPS)等于每秒10亿(=109)次的浮点运算

  一个TFLOPS(teraFLOPS)等于每秒1万亿(=1012)次的浮点运算

  一个PFLOPS(petaFLOPS)等于每秒1千万亿(=1015)次的浮点运算

  一个EFLOPS(exascaleFLOPS)等于每秒100亿亿(=1018)次的浮点运算

  此外,由于浮点积和熔加运算或乘积累加是两次的浮点运算(每条FMA指令包括加/减及乘),因此当处理器支持FMA指令时,峰值是两倍每秒所能运行FMA指令的数目。

  历代著名超级计算机表

认清超级计算机


  中国超级计算机发展现状

  近年来中国在超级计算机方面发展迅速,跃升到国际先进水平国家当中。中国是第一个以发展中国家的身份制造了超级计算机的国家,2011年中国拥有世界最快的500个超级计算机中的74个,而十年前仍默默无闻。中国在1983年就研制出第一台超级计算机银河一号,使中国成为继美国、日本之后第三个能独立设计和研制超级计算机的国家。中国以国产微处理器为基础制造出本国第一台超级计算机名为“神威蓝光”。目前,中国自主研发的天河二号超级计算机在性能上达到了世界靠前位,除此之外天河一号A、神威蓝光、曙光星云等超级计算机都在国内外享有盛誉。

  中国超算发展历史

  中国的计算机行业起步并不算晚,通过学习苏联的计算机技术,1958年8月1日中国知名台数字电子计算机——103机诞生。进入70年代,中国对于超级计算机的需求日益激增,中长期天气预报、模拟风洞实验、三维地震数据处理、以至于新武器的开发和航天事业都对计算能力提出了新的要求。为此中国开始了对超级计算机的研发,并于1983年12月4日研制成功银河一号超级计算机。并继续成功研发了银河二号、银河三号、银河四号为系列的银河超级计算机,使中国成为世界上少数几个能发布5至7天中期数值天气预报的国家之一。并与1992年研制成功曙光一号超级计算机,在发展银河和曙光系列同时,中国发现由于向量型计算机自身的缺陷很难继续发展,因此需要发展并行型计算机,于是中国开始研发神威超级计算机,并在神威超级计算机基础上研制了神威蓝光超级计算机。2002年联想集团研发成功深腾1800型超级计算机,并开始发展升腾系列超级计算机。

  中国超算现状

  2013年10月29日-31日,由中国计算机学会主办,中国软件行业协会数学软件分会协办,中国计算机学会高性能计算专业委员会、桂林电子科技大学共同承办的2013年全国高性能计算学术年会(HPC China2013)在广西桂林召开。本届盛会围绕着高性能计算技术的研究进展与发展趋势、高性能计算的重大应用等主题展开,促进信息化与工业化的深度融合,为相关领域的学者提供交流合作、发布最前沿科研成果的平台,推动中国高性能计算的发展。

认清超级计算机

  在本次大会上,北京应用物理与计算数学研究所袁国兴研究员发布了最新一期的TOP100超算排行榜单。在TOP10排名中,天河二号当之无愧而且毫无悬念的成为了第一名,第二名则是去年的冠军天河一号A,两台超级计算机均来自国防科大,神威蓝光屈居第三名。据悉,本次共有59台全新超级计算机系统上榜,也可以说是榜单进行了大幅度的更新。值得一提的是,来自国家气象局、广东省气象局的3台IBM超级计算机分别获得了榜单排名的并列第11名和22名。

  从上榜超算的性能来看,天河二号当之无愧成为第一名,其性能相比TOP100第一名提升了13.2倍;而在排名第100名的对比中,今年的性能提升也达到了1.8倍;平均下来今年TOP100的整体性能相比去年提升了3.6倍。这从数据上标明我国的超级计算机发展迅猛,不断推陈出新的超级计算机已经达到了世界先进水平。这其中,有6台超级计算机的性能达到了1PFLOPS以上,而采用异构计算的超级计算机数量达到了14台。

认清超级计算机

  从100台超级计算机的份额分配来分析,曙光第五次获得TOP100的第一名,同时并列第一的还有IBM,两者的份额均为35%。第三名则来自惠普,所占比率是13%。从性能表现分析,以天河二号、天河一号A为荣的国防科大在性能上达到了37.4PFLOPS,遥遥领先于其他竞争者。

  可以说,如今中国的超算水平已经达到了与美国、日本等行业发达国家的同等水平,不过在软件应用和人才培养方面上还有一定的差距,这也将是未来中国超算亟需解决的问题。


  多款国产超级计算机介绍

  国家超级计算广州中心——天河二号

认清超级计算机

  天河二号是目前最快的超级计算机。它由16000个节点组成,每个节点有2颗基于Ive Bridge-E Xeon E5 2692处理器和3个Xeon Phi,累计共有32000颗Ive Bridge处理器和48000个Xeon Phi,总计有312万个计算核心。

  每个Xeon Phi使用其中的57个核心,而不是使用全部的61个,因为使用61个在运算周期协调方面会有问题,而使用57个核心能够加速4个执行线程,并且在每个线程单周期可以达成4flops的运算量,运行在1.1GHz的Xeon Phi可以生产1003 Tflops的双精度运算能力。如果考虑CPU,2 Ivy Bridge * 0.2112 Tflop/s + 3 Xeon Phi * 1.003 Tflop/s=3.431 Tflops,2个Ive Bridge+3个Xeon Phi单个节点可以有3.431 Tflops运算能力,16000个节点总计可达54.9PFlops性能。每个运算节点有64GB主存、而每个Xeon Phi板载8GB内存,因此每个节点共有88GB内存,总计16000个节点一共有1.404 PB内存,而外部存储器容量方面更是高达12.4PB.

 

  在每个主板上有2个计算节点,而每个框架则有16个主板,4个框架组成一个机柜,整个系统由125个机柜组成。

  每个计算节点主板分为两块,一块CPM一块APU,CPM上有4核Ive Bridge、内存和一个Xeon Phi,而APU基板上则承载着5个Xeon Phi.

  CPM和APU之间有5个水平插入的链接口,由Ive Bridge内置的PCI-E 2.0进行连接,虽然Ive Bridge内置为PCI Express 3.0接口,但Xeon Phi仅支持2.0,单个通路为10Gbps带宽。

  计算节点的前端处理器为4096个FT-1500处理器, FT-1500处理器是由国防科技大学为天河1研发,其可以说是天河1项目的最大收获,其为16核心的Sparc V9架构处理器,在40nm工艺情况下运行频率为1.8Ghz,峰值性能为144 Fflops/s,功耗为65W,但相比英特尔22nm 12核 2.2GHz 211Gflops/s性能的Ive Bridge还是有明显差距。

  天河2互联方面采用自主研发的 Express-2 内部互联网络,其为有13个交换机,而每个交换机有576个端口。连接介质为光电混合。具体控制器是名为NRC的ASIC专用目的集成电路,其采用90nm工艺,封装尺寸为17.16x17.16 mm,共有2577引脚。单个NRC的吞吐能力为2.56Tbps.而在终端方面网络接口也采用类似结构的NIC,但规模稍小,为10.76x10.76 mm, 675 pin,其采用PCIE 2.0方式连接,传输速率为6.36GB/s.并且在在12000节点的情况下延迟也很低,仅为85us.

  而在计算能力方面,使用14336个节点 总计50GB内存进行LINPACK测试,理论性能为49.19Pflops,而实际测试性能为30.65Pflops,效率为62.3%.这个效率并不算高,还有很大优化提升潜力。当然也可能是被Xeon phi仅支持PCI Express 2.0带宽不足限制。

  上面测试使用了16000个节点中的14336个,运用了90%的规模,基本可以代表天河2的整体性能表现。天河2的性能部件(处理器、内存、互联)整体功耗为17.6MW,而整体的运算能力为30.65PFlops,这样计算每瓦的性能为1.935Gflops,这个性能/功耗比可以拍在超算TOP500的前五,其整体性能/功耗比十分出色。

  系统的整体功耗为17.6 MW,并且这个功耗还不包括水冷这样的散热系统,如果考虑上整体功耗将高达24MW,广州国家超算中心将采用城市供水系统构建高散热效能的冷却系统,有能力可以提供80KW系统的散热能力。

  国家超级计算天津中心——天河一号A

认清超级计算机

  天河一号A根植于2009年获得TOP100冠军的天河一号,也是天河一号的改进版本。天河一号A具备了14336颗Intel Xeon X5670 2.93GHz六核心处理器;7168块NVIDIA Tesla M2050高性能计算加速卡;互联网络从Infiniband交换器改为专用高速互联总线;此外,还有加上了2048颗我国自主研发的飞腾FT-1000八核心处理器作为秘密武器进行加速。它具备总计高达20多万颗处理器核心,Linkpack最大性能飙升至2.507PFlops(每秒千万亿次浮点运算),峰值性能更是高达 4.7PFlops,分别是上代的4.4倍、3.9倍。而且得益于Fermi新架构的Tesla GPU高性能计算卡,天河一号的系统效率(最大性能与峰值性能比值)达到了53.3%。

  在传输方面,天河一号A采用的是高速互联交换芯片“NRC”和接口芯片“NIC”,全部具备自主知识产权。其中NRC芯片片内延迟只有单端口双向带宽高达160Gbps——是Infiniband QDR传输速率的2倍,而NRC单芯片上拥有16个这样的交换端口,其峰值速率达到2.56Tbps。通信芯片由于稳定性和制程局限,往往不采用最新的制程工艺。NRC芯片采用了90nm工艺制造,晶体管数目大约为4.6亿——比“飞腾”处理器晶体管要多。

  国家超级计算济南中心——神威蓝光

认清超级计算机

  神威蓝光超级计算机共有8704个CPU。这是该超级计算机最大的突破。这些CPU全部采用中国购买许可后自主设计生产的CPU,即申威3代“申威1600”处理器(ShenWei processor SW1600)。该处理器是16核64位处理器,每个核心都是DEC Alpha 21164A(EV56)处理器的现代化增强版,以最高频率1.1GHz运行时,16个核总共提供最大141GFlops的双精度浮点处理能力。它的运算能力峰值达到1.07016PFlops,持续性能达到795.9TFlops, Linpack效率为74.37%,总功耗为1074KW。存储容量2PB,最高带宽69.6TB/s。采用多种节能技术实现绿色指标741.06MFlops/W。

  国家超级计算深圳中心——曙光星云

认清超级计算机

  中国自主研发的第一台实测性能超千万亿次的超级计算机,是世界上第三台同类计算机。这台计算机名为“星云”,由曙光信息产业(北京)有限公司、中国科学院计算技术研究所、国家超级计算深圳中心共同研制,是中国制造的拥有部分自主知识产权的超级计算机。2010年6月1日,该超级计算机在北京正式亮相。2010年5月31日在全球最快超级计算机前500名排行榜上,“星云”超级计算机及其相关系统经过众多专家测评,跻身排行榜第二的位置,超越欧洲和日本的同类产品,其运算速度达每秒1270万亿次。

  上海交大超算中心——π

超级计算机:隐藏在我们身边的庞然大物

  2013上半年,由浪潮负责承建的上海交大超算系统成为全国教育部高校计算峰值最高的超算系统,该系统计算性能达到263万亿次,性能超过上海超级计算机中心的“魔方”(200万亿次),也因此成为上海乃至华东地区最快的超算系统。

  同时,采用独特的CPU+GPU+MIC异构计算架构,也让这套首开先河的系统备受关注。该系统峰值性能达到263万亿次,位列最新全球Top500榜单第158名,将用于支撑高端前沿科研。


  中国超算发展面临的机遇与挑战

  程序优化与编程加速的那些事儿

  毋庸置疑,随着上述几款大型超级计算机,特别是天河二号的推出,中国已经成功站在了超级计算机行业的顶峰,成为了与美国并驾齐驱的超级计算机大国。不过这仅仅是在硬件层面上,在软件特别是应用生态环境中,中国还有很长的路要走。

认清超级计算机

  中科院计算所计算机体系结构国家重点实验室研究员、高性能计算专业委员会秘书长张云泉认为——中国的超算硬件水平已经达到了世界领先程度,特别是天河二号再次获得了TOP500超算排名的第一位,之前的天河一号A和曙光星云超级计算机都取得了喜人的成绩。从操作性来说,如何将这些世界顶尖的超级计算机应用好,成为了行业面临的重要问题。如何开发适合的软件、如何培训相关的技术人才,实现产业的良性循环,则是目前面临的主要问题。曙光本次的大会立足于人才培养,这需要一个长期坚持的过程,从高专委的角度出发,也希望曙光能够持之以恒的进行,高专委也将提供大力的支持。

认清超级计算机

  结合当下超级计算机应用的发展来说,并行化研究已经是行业的重要方面,而如何将原有的代码迁移到超级计算机中就成为了关键性的问题。从迁移的角度来说,NVIDIA的CUDA编程方式提供了非常好的解决方案。NVIDIA亚太区首席技术官Simon See认为——NVIDIA提供了超过250个应用案例,这可以帮助用户更多的了解在各自行业中的表现。在应用方面提供了诸多的开发软件,包括CUDA、OpenACC等等,这也是希望用户更多的使用GPU。

  除了NVIDIA之外,英特尔的至强融核协处理器也提供了全新的解决方案。对于程序迁移与编程处理,英特尔认为全新的Xeon Phi协处理器可以大大简化用户的迁移时间,并且提供了非常好的的应用解决方案。圣地亚哥超算中心Richard Moore主任介绍说——Xeon Phi系统具备了可编程性和高性能,从这2个角度来说Xeon Phi相比其他平台来说具备优势。而且英特尔在自身也对于Xeon Phi有了完整的发展规划,已经有实际的路线图出现,这也证明英特尔对此非常具有信心。

  中国超算人才培养计划

认清超级计算机

  曙光高性能产品总监戴荣博士曾对笔者谈到了人才培养计划,他表示——从曙光人才培养的计划来看,目前落实在日常的活动中则是合作实验室、用户培训和联合研发。未来,我们在计划中将拓展高性能计算的整体市场,立足于人员的培训,实现应用的深化。谈到上一届的人才培养跟踪过程时,戴博士认为从两届大会的参会人员来看,有许多公司或个人都连续参加了两次大会,说明大会的培训对于他们的确是有效的。当然短短几天的培训只是一个入门的作用,而在日后的工作中将会持续指导用户在高性能计算领域的管理和优化,深入发掘日常应用的问题。

认清超级计算机

  谈到人才的培养,如何保证人才的持续进步与阻止流失固然是重要,但从超级计算机的应用现状来说,如何结合应用培养复合型人才则是迫在眉睫的问题。对此,中国科学院超级计算中心多学科/重点科学大规模计算软件与实现主管、计算化学虚拟实验室执行负责人兼技术主管和中美联合科学计算中心执行负责人金钟博士尤其重视应用人才的培养,特别是复合型交叉学科的人才培养,他认为这需要计算机与其他应用学科的紧密合作。

  互联网将成为超级计算机应用的新突破

  如今,互联网特别是移动互联网的发展对于当前的数据中心市场产生了大量的冲击,除了大数据之外,包括云计算、Web2.0等多项应用也对数据中心提出了新的要求。随着行业的发展高性能计算的形态也出现了新的变化,包括云计算、大数据等应用也在使用计算机集群,两者互相驱动,互相融合,互相促进。

认清超级计算机

  对此,国际高性能计算咨询委员会主席Gilad Shainer认为这将会成为超级计算机发展的新兴领域。从商业的角度来说,由大数据而产生的数据分析不仅仅能够产生商业化价值,比如能够帮助商家更好的筛选用户喜好与揣摩用户心理,还能够在研究领域为专家提供技术服务。当然,这一切都要求后端的数据中心提供更快的相应速度与处理能力。

认清超级计算机

  这似乎已经成为了行业内的普遍观点,在国内也有许多专家持共同的意见。曙光副总裁邵宗有先生在之前的采访中曾经表示——在高性能计算市场中很明显可以看到一个趋势,就是传统的高性能计算市场比如科研、能源、气象、物理、生物等研究的方向正在拓展,包括金融、通信、医疗、交通等行业也出现了高性能计算的应用需求,而且这样的需求将会越来越多。


  现在,随着超级计算机的发展和应用领域的扩大,超级计算机已经不仅局限在科研、气象、军工等应用领域,包括互联网、制造业、大数据、智慧城市等越来越多的新兴领域都开始使用超级计算机。因为从计算原理来说,任何电脑操作归根结底都是在后端数据中心的计算工作,因此也带来了越来越多的计算压力。从这个角度讲,超级计算机可以应用在我们日常接触到的任何领域。

  同样,并行计算也已经成为了行业发展的共识。如果单纯依靠CPU计算的话,超级计算机的运算能力提升缓慢,而且在能耗方面也难以控制。但随着并行计算的产生,特别是异构模式给予了超级计算机新的发展空间,通过加速器我们可以获得原有性能几十甚至上百倍的提升,这也是为什么我们发现最近5年间超级计算机的性能发展获得了突飞猛进。

  未来,我们或许可以在2018年实现百亿亿次计算,这也是当今超级计算机发展的一大目标。不过随着硬件水平的不断提升,随着应用软件的不断完善和越来越多人才的加入,超级计算机将会与我们的日常生活联系得更加紧密。

0
相关文章