【IT168 专稿】虽然经济危机的阴霾还未散去,但高性能计算市场却是一片繁荣,随着自主创新战略的日渐深入,从各级政府、科研院校到广大企业,都对“通过高性能计算机模拟来提高技术创新能力,加快创新速度,降低开发成本”的策略有了更深入的认识,上海、北京、西安、成都、深圳等地一大批高性能计算中心、超算中心的项目因此纷纷上马。
近日,国内服务器领域关于超级计算机、高性能计算的话题不少,先是5月15日曙光5000A落户中国国家网格南方主节点上海超级计算中心,才过10天,5月25日,联想深腾7000也在国家网格北方主节点中科院计算机网络信息中心宣布投入使用,这二套系统的计算性能都突破了100万亿次每秒,堪称当前国产运算速度最快的计算机。
耐人寻味的是,6月12日,在国产服务器阵营里连续13年占据销量排前的浪潮,则宣布与中科院计算机网络信息中心及其下属的中科院超级计算中心达成战略性合作,双方表示将把浪潮的“天梭”高性能计算系统硬件和超算中心的应用开发技术进行整合,为广泛的中低端高性能计算用户提供“一站式”的HPC解决方案,缓解当前高性能计算产业“偏重计算峰值,忽视软件应用,导致软硬失衡”的瓶颈。
浪潮:不谈峰值,只谈应用
此次浪潮有意避开了“峰值竞赛”,改打应用牌,更看重的是广泛的中低端高性能计算机市场。在6月12日的签约仪式上,浪潮集团高级副总裁王恩东就对“高性能计算领域偏重计算峰值”的现象发表了不同的看法,“近几年,随着国家加大对超算中心、高性能计算中心的投入,HPC领域迎来新一轮建设高潮,但业界对于‘超算’的认识和理解仍然有些片面。突出表现在过于关注运算速度、计算峰值,而实际上真正的高性能计算中心,绝对不应该是花费几百万成百上千万投资购置的一堆高性能设备,更重要的是,如何让高性能计算设备高效运行、有效运维起来?如何真正发挥高性能计算系统的计算力,实实在在提高用户研发效率,这才是硬道理。打个简单的比方,就像豪华跑车上装载了法拉力的发动机引擎,但一定要匹配能够发挥法拉力跑车性能的变速箱、轮胎等系统设计,才能真正成为一辆好的跑车。”
浪潮的看法不无道理。对很多用户来说,今天搭建一套峰值达十万亿次或百万亿次的HPC并非难事,真正困难的是怎么“用好”它,进而发挥其应有的效率。而实际上,相比硬件的快速发展,我国在高性能应用软件的开发、优化严重滞后。有统计数据表明,虽然高性能系统的理论计算力(Linpack值)不断提升,但客户应用的实际计算性能堪忧,多数高性能计算集群的实际运行效率不足20%。在去年11月份的2008年全国高性能算法软件研究开发研讨会上,北京应用物理与计算数学研究所袁国兴研究员也曾指出,目前在高性能计算软件研究方面,存在“把高性能计算软件研制等同于软件编程”、“硬件、算法、软件的研究相脱节”等不合理的现象,致使中国高性能计算软件面临“计算规模受限制,计算精度、分辨率不高,关键应用受限制,不易改进和发展”等多方面的挑战。(详见: 我国高性能计算软件创新急待提高)
HPC应用的四个尴尬
而对于广大的科研院所、高校、企业等高性能计算应用单位来说,因为软件、配置、管理等方面导致高性能计算系统应用效率低下的例子也比比皆是:
尴尬一:“买得起,却用不好、用不起”。硬件水平的提升、硬件成本的持续下降和国家对自主创新的大力倡导,使得越来越多的用户开始使用HPC来辅助科研、生产工作;然而,在实际应用过程中,要将HPC的计算性能充分发挥出来,必须妥善解决软件和硬件的兼容性问题。广大用户,特别是中小规模的用户,多是非IT领域的专家,对高性能计算系统的部署、使用、维护等基本的操作问题不甚了解,更妄谈方案的优化和效率问题。正是在这一环节上得不到有力的技术服务支持,致使一些用户投入了大量的人力、物力进行调优,却仍然效率低下,产出比低。另外,对于大规模的HPC系统而言,日常的耗电、冷却、管理成本也非常高,甚至超过了当初的硬件采购成本,系统运营不堪重负。
尴尬二:“硬件规模不断增大,实际计算力却不变”。很多流行的高性能软件,特别是广泛应用的开源软件,如地震预报LURR、生命研究常用的开源软件蛋白质翻译后修饰与鉴定Inspect,目前的软件并行度不高,甚至是串行程序。现在几百个节点、上千个计算核心的高性能集群已经开始大量涌现,但是支持500个计算核心以上的应用软件却少之又少,根本无法发挥中大规模高性能服务器的计算能力。如某航空航天大学基于飞行器设计的实验室,主要模拟和研究飞机飞行时两个机翼周围气场的变化。由于原有系统越来越不能够满足计算任务的压力,于是购买了一套64个计算节点,运用业内先进的infiniband网络架构和64位至强处理器的高性能系统,但是系统建成后却发现,与原来只有十几个节点的老平台相比,运算效率并没有明显提升。经过对操作系统和应用程序的分析发现,问题出在该软件的扩展性上,并不能支持这么多计算核心,超过了这一限制,系统效率就会大大降低。
尴尬三:“计算能力强大,I/O通信却成瓶颈”。在高性能计算领域,不同应用对于计算平台的要求是各有侧重的。如果不能科学地分析应用特点,就会使得应用“先天失调”,比如说,原本客户的应用需要运行在一个通信密集型的平台上,但由于对应用的理解不深或其他原因,结果采购了一套计算密集型的平台,就会出现这样一种情况:节点空有强大的计算力,但由于通信带宽的限制,造成了数据的堆积,带来了计算资源的极大浪费。可见,除了软件的瓶颈以外,许多系统方案在优化环节的薄弱也会限制性能的发挥。据估算,经过专业的优化,一些高性能计算机群的I/O速度、CPU利用率、硬盘读写速度等最高可提高2倍以上。
尴尬四:“管理很散乱,系统也越用越慢”。某研究所购置了一套高性能集群用于满足所内各课题组的科研需求,在经过一段时间的运行之后,使用人员不断抱怨系统越来越慢。经专家检查,才发现由于日常运行时,各课题组的应用不同、需要的操作系统不同,使用人员经常自行安装需要的软件,结果导致整个系统日益臃肿。此后,该所不得不制定出相应的集群使用条例,来加强对系统的管理。
可见,这些问题都和“HPC系统方案规划设计、软硬件配置调优、应用软件开发与优化、数据中心运维管理”等相关,如果没有经过优良的方案设计、应用优化和科学管理,纵然把系统规模做大,取得很高的Linpack计算峰值,实际上既可能“不好用”,也“用不好”。
寻外援 浪潮看上中科院超算中心
正是针对上述问题,作为硬件系统专业制造商的浪潮和作为国内HPC应用开发“专家团”的中科院超算中心一拍即合,双方都看到了对方的优点和合作的价值。作为国内HPC领导厂商之一,浪潮承担了国家“863计划—高性能网络服务器项目”的研发工作,重点研究高效并行处理、高速互联系统、海量存储、高可用性文件系统、高可信度计算和高性能计算技术及体系结构,成功开发出天梭TS10000高性能服务器和天梭TS20000、TS30000高端商用服务器,并实现广泛市场应用。浪潮集团高性能产品总经理刘军告诉记者,2008年浪潮的HPC业务增长了200%左右。
而中科院超算中心作为国内最早的大型超级计算中心,拥有计算能力150TFlops,内存容量达60TB,硬盘存储空间达350TB,磁带存储空间达1PB,是科技部命名的“中国国家网格运行管理中心”和“中国国家网格北方主节点”,主要从事并行计算的研究、实现及应用服务,为大规模复杂技术和商业应用提供解决方案,在国内超算应用领域算法优化最具实力、领域最广、用户最多,在设计物理学、化学、天文学、力学、材料学、电子学、化学物理、地球科学、计算机科学、空间科学、数学、生物学、生态科学、声学等数十个学科领域积累了丰富的高性能应用经验和大批高性能软件成果。
浪潮集团高性能产品部总经理刘军与中科院超算中心主任迟学斌联合答记者问
据介绍,通过本次合作,中科院超算中心在HPC应用服务和技术支持方面的经验和成果,将与浪潮现有的高性能计算及服务器业务相结合,借助浪潮现有的HPC营销网络,向客户提供包括方案支持、系统运维和应用开发优化在内的软硬一体化服务,具体包括:面向不同应用方向的HPC系统应用案例、方案规划咨询与支持、特定应用需求分析;硬件产品培训技术支持和咨询服务;集群系统使用深入咨询与支持;商用及开源软件的安装与调试;高性能计算技术培训;HPC应用软件设计与优化等。
作为用户方代表,中科院北京基因研究所副研究员吴佳妍博士在现场告诉记者,当前全球范围内基因研究都面临数据增长迅猛、数据量巨大的问题,原来那种小打小闹、仅靠一两台工作站的方式已经难以满足科研需求,必须使用大规模、高吞吐量的HPC系统。发达国家的基因研究单位自身就拥有专业的软件开发和技术支持团队,而国内缺少这样的团队,浪潮和中科院超算中心的合作有望帮助用户单位做好软件移植、系统优化与维护等工作,免除用户的后顾之忧。她还提到,希望双方能够从用户的应用层面去考虑问题,尽可能从传统的研发者进入到使用者的角色,从而让HPC真正用好,也好用。
值得一提的,此次浪潮与中科院超算中心的合作,也是首次将“院企合作”模式从过去的高性能计算产品研发阶段延伸到了应用阶段。如果说前者能够诞生出非常尖端、代表国家科技水平的高端超级计算机,如曙光和中科院计算所在曙光5000A上的合作,那么后者则能够为整个高性能计算产业带来一些实实在实的价值:一方面帮助用户以低成本的方式用好HPC,一并解决硬件选型与部署、应用开发与优化等诸多方面的问题,提高广大科研院所、高校和企业的科技创新水平和效率,同时也有助于中科院网络中心HPC应用方面科研成果的产业化,另一方面,中科院超算中心或许能够成为浪潮强有力的“外援型”HPC技术支持队伍,这将是一条与众不同的道路,为我国高性能计算产业发展提供了新的借鉴模式。