【IT168 资讯】曙光系列并行高性能计算机实现了数以十计的“第一”与“突破”,也成就了一个中国高性能计算机领域里的著名品牌。如果说,种种“第一”与“突破”实现的是“从无到有”、“填补国内空白”,那么品牌的崛起则是一个“从有到强”的过程。前者是“点”的飞跃,而后者则是“线”与“面”的质变。
从1993起,在国家863计划支持下,中国科学院计算所国家智能计算机研究开发中心和曙光公司先后成功研制和推出了曙光一号多处理机、曙光1000大规模并行机、曙光1000A、曙光2000-I、曙光2000-II、曙光3000和天潮1700机群结构超级服务器,以及面向网格应用的曙光4000L和曙光4000A。同时在九五攻关计划支持下先后推出了曙光Internet服务器、高可用服务器、NT机群系统和安全服务器。发展到今天,曙光高端服务器已经形成一条完整的“天潮”系列产品线。
十多年来,曙光高性能计算机的体系结构从对称式多处理机(SMP)到大规模并行机(MPP)到机群结构(Cluster),再发展到了大规模机群体系(MCC),其发展历程如下图所示:

从智能机转向并行机
1986年,国家863计划刚刚起步时,日本智能计算机如火如荼。受日本五代机的影响,我国863计划计算机主题原定的研究目标也是智能计算机。当1990年国家智能计算机研究开发中心成立时,以李国杰院士为代表的曙光人面临两个选择:要么跟日本人走,研制向量机,要么跟国际主流走,研制并行机。
经过专家组对国内外计算机发展趋势的反复调研分析,我们清醒地认识到计算机产业虽然发展很快,但已相当成熟,并已经形成了一系列国际工业标准。脱离工业标准与计算机主流技术的所谓智能计算机不可能有好的前途。在专家组的支持下,我们果断地选择以并行处理技术为基础的高性能计算机为主攻方向,以共享存储多处理机为第一个目标产品。同时在应用软件和人机接口方面,特别是Internet 网络应用上加强智能化软件的研究,提高应用软件的智能化水平。历史证明,这条路我们走对了。
1994年全国人大政府工作报告中的“曙光一号”
1993年5月,曙光一号诞生。这是我国研制成功的第一台全对称共享存储多处理机(SMP),是国内首次以基于超大规模集成电路的通用微处理器芯片和标准UNIX操作系统设计开发的并行计算机,在国内率先实现了多线程机制和细粒度并行。

然而,曙光一号的意义不仅在于此。与80年代我国研制的大型机、巨型机相比,曙光一号研制周期从过去的5-6年缩短为一年。由于采取了“有所为,有所不为”和与国际接轨的技术路线,投入的人力和资金也大大减少。研制周期的缩短和标准化技术的采用保证了新品推出时的市场竞争力。
尽管从90年代初开始,国际上采用主流的微处理机芯片研制高性能并行计算机已成为一种发展趋势。但曙光一号的推出在当时国内仍打破了以往“从芯片和操作系统做起,实现彻底自主研发”的传统模式,为我国在对外开放新形势下研制高性能计算机探索了一条新路,得到用户和政府部门高度评价。曙光一号也因此被写入了1994年全国人大政府工作报告。
曙光1000:1997年IT界唯一的国家科技进步一等奖
在曙光一号推出的同时,曙光1000大规模并行机(原曙光二号)也开始启动研制。国家智能机中心在国内率先突破了“驻洞路由”这一关键技术,研制成功将大量处理机连接起来的路由芯片,为我国研制可扩展的大规模并行机探索了一条可行的道路。1995年3月,曙光1000正式推出。它是我国第一台实际运算速度超过每秒10 亿次浮点运算(峰值速度25亿次)的并行机,对推动我国的并行计算应用发挥了重要作用。1997年,曙光1000获得了我国信息领域唯一的国家科技进步一等奖。

从超级计算机转向超级服务器
1995年曙光1000推出后,我们面临了第二次技术路线上的决择:863计划下一个目标产品曙光2000是继续研制超级计算机还是转型超级服务器?超级计算机主要用于科学工程计算,主要追求计算速度。超级服务器则是更加通用的高端计算机,除科学计算外,更多地用于事务处理与网络信息服务。二者在应用面和技术面上都存在着重大差别。
尽管1995年我国的Internet应用还刚刚起步,全世界速度最快的500台计算机中90%以上还属于超级计算机,但超级服务器是大势所趋。在当时,高性能计算机的发展趋势已经表现出网络化、体系结构主流化、开放和标准化、应用的多样化。而网络化应用是高性能计算机最重要的趋势,Client/Server模式也开始进入到第二代,即服务器聚集的模式。于是,我们决定不再以单项指标(如计算速度)赶上世界最高水平为目标,而以争取尽可能多的用户使用国产高端计算机为目标,因而选择了研制机群结构的超级服务器为主攻方向。
如果说,1996年推出的曙光1000A是机群体系的一次尝试的话,那么曙光2000及后续产品的市场成功已充分证明了这一决策的正确性。其实,今天,全世界90%以上的高端计算机都用于信息服务和数据处理,科学计算用户不到10%。超级计算机与超级服务器应用领域区别如表1所示:
表1超级服务器的应用领域:

其实,曙光系列并行计算机从超级计算机转向超级服务器也正是从MPP大规模并行计算机转向Cluster机群体系的过程。用高速互联网络连接多个独立的计算机构成一个群集(Cluster)是90年代国际上构架大规模并行计算机系统采用的主流体系结构。这种结构最大优点在于它的高可扩展性(High Scalability)和高可用性(High Availability),对于并行任务能提供良好的性能价格比。随着节点机个数的增加或节点机性能的提高,系统的性能也能随之提高。
中国知名台机群架构超级服务器
很多人会误认为1998年推出的曙光2000-I是中国知名台机群架构超级服务器,其实1996年推出的曙光1000A才是中国机群高性能计算机的开山鼻祖。
曙光1000A并行计算机系统首次采用了基于高速网互联的群集体系结构,由4-128个节点机构成,节点机采用基于PowerPC 604e 芯片的曙光天演工作站ST120。通过高速以太网(100Mb)连接各节点机,自行设计的软件使系统中节点机群连成一个整体,向用户提供各种跨节点的单一系统映象的服务。曙光1000A上还提供了国际标准的并行编程环境,使应用能充分利用群集的并行能力获得非常好的的并行性能。

曙光1000A在喀麦隆得到了成功应用,首次实现了曙光服务器在国外市场的销售。在辽河油田,曙光1000A作为整个油田的主信息网络服务器,成为了各大油田里的功臣。另外,曙光1000A在全国五个高性能计算中心、中国气象局、四川科技信息网等单位都起了很好的平台作用。
从“大而全,小而全”转向“有所为,有所不为”
曙光一号和曙光1000在技术上的巨大成功并没有得到相应的市场回报,曙光1000在国内仅仅卖出了几台。问题出在哪呢?操作系统。曙光1000在购买的AT&T UNIX操作系统源程序基础上进行了修改,并成功开发了符合POSIX工业标准SNIX。但操作系统的改动导致用户从国外购买的应用软件目标码不能在曙光机上运行。而拥有源程序的数据库及第三方软件开发商由于曙光机起步时销量不大,都不愿意主动移植他们的商用软件与曙光机捆绑销售。这就迫使曙光机只能卖给那些自己编写应用程序的用户。操作系统修改引起的“多米诺骨牌效应”无疑为曙光机自身制造了市场准入壁垒,从而限制了曙光机的大面积推广。
尽管并行UNIX操作系统曾经是曙光机的标志性成果,曾经代表着国家智能机中心的学术水平,但国际巨头制造的市场化的标准壁垒已经形成,用户的需求是第一位的,我们的技术创新应该为用户创造价值,而不是制造“麻烦”。经过痛苦的反思,李国杰院士再次痛下决心:“为了保证成千上万种已有的商品化应用程序目标码能在曙光机上运行,节点上的UNIX操作系统(IBM AIX操作系统)一行都不许改动,但在节点操作系统之上我们要开发尚未形成工业标准的机群操作系统,以实现对整个机群几百个处理机的系统管理、资源管理、作业管理和文件管理等等。”1998年推出的曙光2000-I、1999年推出的2000-II和2000年推出的曙光3000都证明这条适合中国国情的路线走得通。

这次转折正式开启了曙光系列高性能计算机研发从“大而全,小而全”向“有所为,有所不为”的转变历程,也成为曙光2000和曙光3000最有意义的创新。

1997-1998年间,李国杰院士创造性地提出了“有所为,有所不为”的技术路线。通俗地讲,就是“站在巨人的肩膀上,咬着巨人的耳朵”,在工业标准的基础上,进行自主技术创新和开放式创新,在“可为”和“有所为”的领域实现精细化和专业化,以达到既能提升技术核心竞争力,又能更好地满足用户需求的企业目标。
从根本上来说,“有所为,有所不为”就是如何平衡技术创新与市场需求之间的矛盾。一方面,从国家长远战略需求和企业核心竞争力培养的角度来看,我们要在系统与部件的核心技术层面进行创新,打造完全自主的信息技术产业链;另一方面,从市场准入规则和用户应用需求的角度来看,只有符合现行工业标准的产品才能更好地满足更多的用户需求,也才真正具有现实意义的市场竞争力。关键是找到二者间具有非常好的效益的“平衡点”。
天潮1700:另一种经典
2001年推出的天潮1700没有获得过任何一项优异科技进步奖,也没有能够象曙光3000、曙光4000L和曙光4000A那样入选“年度中国十大科技进展”而风光无限,但这并不影响它成为经典。
2003年4月,第1000套天潮1700下线并交付用户使用。对于微机来说,1000套实在算不了什么,但对于高端服务器而言,业内人士都很清楚它的份量。天潮1700在市场上的巨大成功是曙光高端技术下移和产品工业化的成功,是“顶天立地”策略的成功,也是中国高性能计算机产业化进程中的一座里程碑。所以说,天潮1700是另一种经典,是用户用信赖和行动培育出来的经典。
天潮1700是曙光高端超级服务器集群技术和低端IA服务器软硬件设计技术一体化集成设计的产物。通过统一曙光NT Cluster集群服务器(Windows NT系统)和Netbox集群服务器(LINUX系统)二种不同平台,移植曙光3000上的成熟监控、管理技术,并采用了曙光在研制I220S、R200S等低端PC服务器过程中积累的技术,天潮1700在产品技术层次跨度、覆盖面、产品化方面取得了重大突破,解决了跨平台管理、跨操作系统管理、系统软硬件运行状态监控等混合平台应用等技术难题。从而使得天潮1700能够完成曙光3000的大部分功能,但价格却仅仅是曙光3000的几分之一。

相对于独立网络服务器而言,服务器聚集系统在可扩展性和统一管理维护上带来了无可比拟的优势;相对于小型机和RISC工作站而言,基于IA架构节点的服务器群集在成本、总体性能上优势突出;加上LINUX操作系统的飞速发展和快速普及。这一切都为天潮1700带来了可自由伸缩、高度可管理、高可用、高性能价格比等诸多优点,也使得它在市场上的成功是如此“出人意料”,又是如此“自然而然”。
从“通用”走向“专用”
如果说当年曙光HPC由超级计算机转向超级服务器,是由针对科学工程计算的“非通用”产品走向适用于科学工程计算、事务处理和网络信息服务的“通用”产品,那么,从2002年开始,曙光推出超级服务器“瘦身计划”,并开启了从“通用”走向“专用”的历程。2003年4月,曙光总裁历军更是明确提出了“整合计算,细分应用”的HPC发展策略。整个过程就象哲学中的“否定之否定”规律一样富有戏剧性。
然而,从超级计算机转向超级服务器是一种必然,从“通用型”超级服务器再转向“专用型”产品同样也是一种必然。
随着产业的发展,通用机群的技术门槛越来越低,竞争日渐充分,加上高端机器的特点决定了用户不可能很快地更新换代,市场细分已属必然,而用户需求的广度和深度却在不断升级,特别是对于缺少计算机技术储备的诸多新兴用户群来说,需要的不仅仅是一套套的硬件产品,更需要切合行业应用的整体解决方案。
而对于曙光来说,一方面在“通用型”机群产品上已经积累了大量的应用经验和宠大的用户群。截止到2000年,我国高性能计算机共135台,而曙光有40多台,占到了30%的市场份额。通过与众多行业用户进行联合研发、系统优化、软件并行、人才交流等多种形式的技术交往,曙光已经深入了解了许多行业用户的特殊业务需求和应用环境。另一方面,作为中国高性能计算机厂商中的翘楚,曙光深厚的技术积累也使得曙光最有能力在市场细分上走出第一步。正是这种内外环境的变化促成了曙光HPC的再一次成功转型。
随着“整合计算,细分应用”策略的出炉,曙光一方面先后成功开发了曙光DCMM机群监控系统、曙光DCMS机群管理系统、大规模KVM切换系统、网格零件等用于整合计算资源的“粘合剂”,大大提高了曙光机的稳定性、可扩展性、易用性和可管理性。另一方面推出了一系列针对石油、气象、生物、环保、ERP、网络安全的专用高性能计算机及相关行业解决方案,受到了用户的广泛好评。

曙光针对石油行业应用特点,自主研发了石油软硬件一体化系统,完全改变了以往在石油探测时的低效率,大大提高了地震数据的并行化计算水平。为了深刻了解石油领域应用的特点,曙光还专门聘请了石油专业的博士与硕士加入研发队伍,这在其他厂商中是很少有的。截止到2005年第一季度,曙光HPC在中国石油领域已经占领了60%的市场份额。随着中石油在全球范围业务的拓展,已经有数以百计的曙光机运转在全球各地,成为了名副其实的“找油先锋”。
在气象领域,曙光首先开发了气象数据计算专用软件,并配合服务器管理、监控和调度系统,再对系统软硬件进行优化,使得从卫星传回的数据可一次输入天潮1700,系统计算出结果后直接发布到Internet上,一条龙式的服务真正解决了气象部门的自动化需求。曙光气象专用机也因此受到了各地气象部门的青睐。
另外,天潮1700在教育部“世纪曙光”工程,曙光3000在华大基因和中国人民银行的成功应用也同样证明了“市场细分,方案专用”路线的优越性。针对市场规模较大的中小规模信息服务领域,曙光已经开始加快拓展这些行业的应用面与专用化发展,注重中小企业信息化、教育信息化、电子政务、小区接入(点播、游戏)等应用,并将延伸至更广阔的应用层面。其中无论是同构平台还是异构平台,都将是曙光发展专用化、扩展行业应用的重点。

从网络走向网格
“网格”的概念源于电力工业中的输电网。人们希望也能象使用电力那样方便地使用计算力,于是,“计算网格”的概念诞生了。网格是继因特网、万维网之后,成为互联网发展的第三个里程碑。从计算机技术的发展来看,计算机体系结构处在一种“分久必合,合久必分”的螺旋式发展趋势中。上世纪六七十年代,以IBM360为代表的集中式主机(Mainframe)/终端架构是主流。随着八九十年代PC技术的成熟,客户机/服务器结构逐渐流行。但由于各式各样的服务器分散在Internet上,导致管理费用过大。从九十年代后期开始,又走向了集中管理的服务器聚集(consolidation)模式,即把各种服务器集中在一个机柜中形成超级服务器。进入21世纪,网格(Grid)研究逐渐成为新的热点。人们希望把分布在世界各地的计算机和信息资源形成资源共享的网格(Grid),以提供更方便的服务。

从曙光3000开始,中科院计算所和曙光公司就开始积极投身于网格技术研究及“中国教育科研网格”的建设中,并在华中科大、中山大学、武汉大学等国内重点院校的“教育科研网格节点”项目中取得了较大成功。另外,曙光还与政府相关机构合作在合肥、西安、上海等地陆续建立了基于网格研究的高性能计算机研究中心,其中面向网格的硬件设备全部采用曙光3000超级服务器、曙光TC1700机群服务器等标准化系统。
目前,在面向网格的超级服务器技术研究方面,国家智能计算机研究开发中心和曙光公司开展了国家863计划高性能计算机及其核心软件重大专项支持的曙光4000研究项目,通过研究面向网格的高性能计算机,为网格提供计算力服务。其研究目标包括:曙光4000L Linux超级服务器、曙光4000A高性能超级服务器、10Tflops曙光4000面向网格的高性能计算机、曙光4000H生物信息处理高密度专用机群系统、曙光4000T具有自主知识产权的服务器。
2003年3月份,曙光推出了第一款专门面向网格的高性能计算机曙光4000L。该系统由40个机柜组成,最大可“在线”扩展到80个机柜,1300个CPU,每秒6.75万亿次峰值速度,4000G内存,600T存储的海量处理系统,并成功开发了两项网格使能技术,使系统具有网格环境下的优良特性。同年6月,运算速度达到4.2万亿次的曙光4000L正式交付中石油东方物探公司。

2004年6月,10万次运算速度的曙光4000A问世,并于2004年11月在上海超级计算中心正式开通,成为中国国家网格南方主节点。曙光4000A实现了国产超级服务器在主板设计等核心级技术上的重大突破和“工业标准机群”的技术增值,攻克了一系列“大规模机群”计算的关键技术,在性能价格比和性能功耗比等方面处于国际领先水平。
在2004年6月22日公布的全球超级计算机TOP500排行榜中,曙光4000A以每秒11万亿次的峰值速度和80610亿次Linpack计算值位列全球第十,这是中国超级计算机得到国际同行认可的成绩优异。随着曙光4000A的推出,中国已经成为继美、日之后第三个跨越了10万亿次计算机研发和应用的国家。

曙光4000系列HPC的推出,使基于服务(Service-based)的机群操作系统、网格通信协议、网格文件系统、用于网格应用资源路由的智能网卡、支持网格的高性能计算机体系结构等一系列网格技术也开始浮出水面。以曙光4000A为例,它提供了超级服务器所需的许多网格零件(Grid-enabling Components),包括网格路由器、网格钥匙、网格网关、网格监控中心、网格文件访问和织女星网格操作系统。
曙光5000:又一个高峰
曙光5000A高性能计算机是国家863计划高性能计算机及其核心软件重大专项支持的研究项目,是面向网格的高性能计算机,可以为网格提供计算服务,同时也是面向信息服务的超级服务器,可以提供多目标的系统服务。曙光5000A采用网格技术,体系结构以构件性(Component)、标准性(Standard)、协作性(Coordinate)为基准,采用服务化(Service)、安全化(Security)、专业化(Specialization)、智能化(Intellengce)的3SI技术路线。
曙光5000A的第一套超大型系统将于08年11月份落户“上海超级计算中心”,该系统的计算节点机采用四路四核AMD Barcelona (主频2.0GHz)处理器,每个节点64GB内存,胖节点机采用八路四核AMD Barcelona(主频 2.0GHz)处理器,每个节点128GB内存,整个系统由1650个节点组成庞大机群,共有6000颗CPU与100T海量内存,其理论浮点峰值为每秒230万亿次,采用20GB,延迟小于1.3us的Infiniband高速网络进行互联,采用了WCCS + SuSe Linux 双操作系统。

应用领域
曙光5000A已成功运行证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等领域的20多项应用。
作为面向国民经济建设和社会发展的重大需求的网格超级服务器,曙光5000A适用于各种大规模科学工程计算、商务计算。在大规模科学工程计算方面,可以担纲电力电网安全评估、汽车碰撞、电磁辐射、石油勘探开发、气象预报、核能与水电开发利用、各类航天器及飞机汽车舰船设计模拟、各类大型建筑工程安全性评估、生物信息处理等重任,在大规模商务计算方面,它可以为证券、税务、银行、邮政、社会保险等行业和电子政务、电子商务等提供服务。在大规模信息服务方面,它可以在各类游戏网站、门户网站、信息中心、数据中心、流媒体中心、电信交换中心和大型企业信息中心中发挥作用。对基于海量存储的数据大集中应用,完全兼容32位计算的具有64位地址空间的曙光5000A网格超级服务器更可大显身手。
同时曙光 5000A还可以广泛的应用于信息服务,电子政务,网络游戏等商业应用。在这些领域,曙光5000A可以广泛作为Web服务器,应用服务器,数据库服务器。
曙光5000A可以在1秒钟内是实时完成10000个5000万瓦以上的并网发电机组,和22万伏变电站构成的全国电网的电力安全评估,为避免类似美加大停电的电力故障提供决策支持,保证供电系统的稳定。
曙光5000A可以在30秒内完成上海证交所10年的1000多支股票交易信息的200种证券指数的计算,能够实时提供金融衍生产品。
曙光5000A可以在3分钟内,可以同时完成4次36小时的中国周边、北方大部、北京周边、北京市的2008年奥运会需要的气象预报计算,包括风向、风速、温度、湿度等,精度1公里,即精确到每个奥运会场馆。
曙光5000A可以在6分钟内,可以同时完成20次上海黄埔江过江隧道三维结构的地震数值分析的计算,能够精细评估隧道的抗震性能。
十一大特点
曙光5000A系统峰值运算速度达到每秒230万亿次浮点运算(230TFLOPS),LINPACK运算速度超过每秒160万亿次浮点运算,是目前国内速度最快的商用高性能计算机系统。曙光5000A使中国成为继美国之后第二个能制造和应用超百万亿次商用高性能计算机的国家,也表明我国生产、应用、维护高性能计算机的能力达到世界先进水平。该系统在大规模机群计算和网格使能技术方面有所突破,形成了鲜明的技术特色,将我国通用高性能计算机系统的研制水平提升到一个新高度。
(1) 突破230万亿次峰值运算能力
曙光5000A采用国际高性能计算机主流的机群结构,整个系统规模达到1650个节点,每个节点为4CPU的4核SMP系统,采用AMD Barcelona 2.0GHz处理器,峰值运算速度为230TFLOPS。整个系统通过两套网络互连,包括Infiniband、千兆以太网。系统的主要配置如下:
230T FLOPS峰值运算速度
6600个CPU
1650个结点
100TB内存
700TB存储
两套互联网络
曙光Gridview机群软件
(2)高密度
对于大规模高性能计算机系统而言,如何提高系统密度并降低功耗是研制人员面临的关键问题之一。为提高曙光5000A的系统密度,中科院计算所联合曙光公司,研制了具有自主知识产权的4CPU 4核高密度刀片主板和基于该主板的世界上第一款7U高度的10片4路4核64位CPU的工业标准刀片服务器。该刀片服务器可以实现单机箱40CPU,160核的超高计算密度,并实现了单节点内部的并行计算。
(3)全自主
中科院计算所联合曙光公司自主设计了包括主板,体系结构,刀片服务器,刀片机箱系统,网络交换系统,水冷散热系统在内的全部系统。曙光5000A的设计也完全符合中国刀片服务器标准。在自主创新的研制过程中,曙光在业界实现多个第一:
首次实现了4路16和的高密度刀片系统,
首次实现了单刀片机箱40克CPU的高密度机箱设计,
首次实现了基于DDR的Infiniband的交换结构,实现了20GB高速互联和小于1.3us的低延迟。
首次采用了水冷散热系统,降低了高性能计算机对机房系统的要求,降低了系统功耗。
(4)高效能
由于采用高密度服务器,曙光5000A能大约75平方米的占地面积内聚集230万亿次的计算能力,而其满负载运行时不带水冷系统功耗只有700千瓦,代水冷系统的功耗仅为1000千瓦。这一方面提高了机群系统的可扩展性,另一方面降低了整个系统地运行成本。
(5)高速互联
曙光5000A采用基于DDR的 Infiniband高速网络实现计算网络和存储网络合一。实现了20GB的节点间传输速度,实现业界最快的小于1.3us延时。
(6)应用广泛
曙光5000A不仅可以应用于高性能计算,还可以应用于信息服务,电子政务,网络游戏等常见商业应用。
在高性能计算领域,曙光5000A可广泛运行证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等20多个应用领域。
在商业应用方面,由于曙光5000A使用Suse Linux 和 WCCS ,可广泛运行目前Linux和Windows下的主流的行业软件.
(7)节能
曙光积极响应世界环保组织节能减排得号召,在曙光5000A中采用了多项节能措施,使曙光5000A在满负载运行时不带水冷系统功耗仅700千瓦,带水冷系统的功耗仅为1000千瓦。
采用了低功耗的CPU,每年节电55万度
采用了低功耗的内存,每年节电5万度
采用了刀片结构,电源效率优化,每年节电100万度
采用了水冷散热体系,每年节电200万度
采用了曙光自主研发的自适应功耗管理软件, 每年节电200万度
(8)高效冷却系统
曙光5000A首次采用了水冷系统,通过使用水冷系统,降低了高性能计算系统对客户机房的要求,同时提高了冷却效率。水冷系统的设计实现了水电分离,保证了系统的安全性。同时水冷系统还包括备份的被动散热系统,可以在水冷失效的情况下保证系统的正常运行,提高了系统的稳定性。
(9)高性价比
通过选择AMD Barcelona和自行研制的主板,曙光5000A的价格优势更是十分显著,是新型信息化思路的产物,能大幅降低高性能计算机的成本,使曙光5000A具有很好的性能价格比。
在曙光5000A的研制过程中,曙光公司延续了以往艰苦奋斗的精神,使得曙光5000A具有极高的性能价格比。实现230万亿次的计算速度的曙光5000A总造价约2亿元。
(10)自主创新的管理软件
在大型机研制过程中,曙光不仅追求最快,同时也在系统管理方面最求完美。曙光5000A中,曙光自主开发了Grid View集群管理管理系统。曙光新一代Gridview大型机综合管理系统提供统一的集中式监控平台,具备可扩展性、集成性、可靠性和易用性,提供对各种商用、自己研发的管理工具的集成接口,包括直接以Portal的方式集成和抽取各已有管理工具的监控数据以便上层平台能够分析利用,从而满足同时对分布式广域\局域网高效能百万亿次可扩展计算机的环境、硬件、软件等各方面进行监控的需求。
曙光Gridview大型机综合管理系统具有高可靠性,具有一定容错性和健壮性,使得当部署运行环境等发生异常时系统能够运行在可控的范围内,并进行准确的异常定位提示。系统具有易用性,提供简单灵活的系统部署,人性化的界面和功能设计,方便最终用户的使用,包括灵活方便的个性化设置、多样的内容展现形式。管理系统同时提供个性化、自定义报表输出功能。曙光新一代GridView可有效解决大型机管理的复杂性问题,保障了管理的扩展性、可靠性、自主性和贴近应用需求。
Grid View管理系统不仅适用于曙光5000大型群集系统,也是用于全系列的曙光服务器。
(11)与国际厂商AMD、微软战略合作意义重大
通过曙光5000A项目,计算所、曙光公司与AMD公司进一步加强了战略合作关系。采用AMD Barcelona处理器,使中国用户能更早地、更廉价地、更容易地得到64位计算能力;同时引入充分竞争,为中国用户带来更多的技术选择,更大的价格利益,并从国家利益的高度有利于改善中国计算机产业的格局。
通过曙光5000A项目,曙光公司与微软公司建立了战略合作关系。采用微软的WCCS服务器,提供了用户的管理友好性,同时也让曙光5000A可以运行Windows下的大量行业软件。
顶天立地,情何以堪?
有人说,“顶天立地”只不过是一句口号;也有人说,“顶天立地”只是一种幻想。但丁说:“走自己的路,让别人去说吧!”但我还是想说,在这里,曙光高性能计算机“顶天立地”是梦想,是信念,是思想,是策略,也是行动。
说它是梦想,是因为它承载着国家863计划的使命与目标,也承载着一代代曙光人为振兴民族高性能计算机产业,实现商业成功的伟大抱负;
说它是信念,是因为它的背后有种“人生能有几回搏”的精神,有着对“高性能计算机是第一生产力”的坚定信仰,有着曙光人“十年只做一件事”的专注与不移;
说它是思想,是因为“技术顶天,应用立地”中闪烁着智慧与理性的光芒;
说它是策略,是因为不仅有“顶天立地”,也有“有所为,有所不为”的庙算,更有“整合计算,细分应用”的谋略;
说它是行动,是因为一代代曙光机的问世代表了中国高性能计算机领域的最高水平,是因为有曙光4000A在世界舞台上的扬眉吐气,是因为有天潮1700的产业辉煌,是因为有两千多套曙光机正在全球各地为尊敬的客户们不停地创造价值……