服务器 频道

专访张云泉:高性能计算机评测呼唤新标准

   【IT168 独家专访】在“2006年中国高性能计算机性能TOP100排行榜”发布之际,IT168服务器频道记者采访了主管该排行榜的中国软件行业协会数学软件分会的秘书长张云泉博士,就该排行榜的背景、发展历程以及国内HPC发现的现状进行了交流。

中国软件行业协会数学软件分会秘书长 张云泉博士

记者:第一届排行榜最早是在2002年推出的,当初中国软件行业协会为什么要做这样一个事情?请介绍一下相关背景?

张云泉:主要有两方面的考虑。首先,中国软件行业协会数学软件分会主要是围绕“交流、中介、评测、协调”这样一个宗旨来开展工作的,HPC TOP100排行榜的工作体现的就是“评测”这个宗旨。其实早在2002年以前,学会就成立了“高性能计算机评测专业组”,已经积累了一定的基础。到了2002年,我们正式决定推出排行榜,但由于是第一届,参与排行的机器数量还不到100套,所以当年我们只推出了TOP 50。

    另外一个很重要的原因是为了纠正当时业界“只重运算峰值,不重LINPACK值”的HPC传统评价标准。这种标准只强调机器理论上的运算峰值,而没有反应实际应用的情况。由于测试LINPACK值相对比较费时费力,所以刚开始时有些厂商提出了反对意见。但今天,厂商反过来对我们的评测标准提出了新的要求。因此,我们也在和上海超级计算中心合作,计划推出更加贴近行业实际应用的高维并行FFT(快速傅立叶变换)评测指标。这个新标准强调系统计算性能和通信性能的平衡性,不象LINPACK只侧重于计算性能。目前,国际上有一些组织如HPCC也在设计这种评测指标。

记者:从2002年开始,中国HPC TOP 100排行榜已经举办了五届,在您看来,这个排行榜对中国HPC产业的发展起到了哪些作用?

张云泉:我个人觉得主要有这么几方面的作用。首先就是促进国内业界对HPC形成了统一的评测标准,同时对规范厂商产品设计和产品宣传有一定的指导意义,对业界将评价HPC的标准从脱离实际的峰值转向LINPACK值,使用户在选购HPC时有了一个相对公正的参考数据。

    其次,经过几年的努力,我们已经初步形成了一个反映我国高性能计算机应用分布情况的数据库,目前已经积累了数百套相关资料,这不仅对学术界的科学研究有参考价值,也可以为政府有关部门制定高性能计算机产业政策提供决策依据。

    第三,我们借助这些历史积累数据,可以对国内HPC产品技术和市场应用的未来趋势进行预测;最后,与全球HPC TOP 500排行榜上的中国高性能机器信息相比,我们的排行榜更加全面、精细的反映我国HPC应用的总体情况,毕竟在目前阶段的TOP 500中,中国入选的系统数量毕竟只有十几套。
因此,国内这个排行榜也引起了国际业内专家的关注。比如在2004年,美国SCIDAC计划的科学家David Keyes就曾以这个排行榜为基础,对中国的HPC发展情况进行分析和研究,并在国际学术会议上做了《Supercomputing in China》的报告。

记者:那么,5年来,这个排行榜反映了国内HPC领域的那些发展变化?

张云泉:大概可以反映六个方面的特点。

    一、上榜系统的总体性能虽然还远不及全球TOP 500,但我们的增长速度更快,这也说明中国HPC的发展正处于一个加速的过程中。

    二、HPC的应用领域得到大大拓展,从原先的石油、气象等科学计算领域向工业应用领域普及,科学计算应用领域的份额大幅下降,这说明HPC对中国国民经济的发展越来越重要。有意思的是,用作网游服务器的HPC系统数量增长最快,比如今年有9套入选,去年只有3套,而且都是规模比较大的机器,这跟国际上的情况是不一样的。

    三、系统运算效率一直没有太大变化,稳定在60%左右。

    四、国内厂商的发展比较快,早期只有曙光、神威、银河,现在联想、浪潮、宝德等服务器厂商也都积极参与进来,国产机器入选的数量在稳步增长。值得注意的是,跟国内厂商“往高端走”的策略相比,国外厂商“低价下移”的策略的效果似乎更好一些。

    五、跟国际上的情况相类,机群占据了70%的主流地位,但也注意到,体系架构方面今年已经有一些新的变化,比如倡导NUMA架构的SGI今年回到了我们的排行榜上,IBM、HP的刀片服务器在石油等领域也取得了不错的进展。

    六、从地理分布来看,早期HPC应用主要集中在北京、上海两地,但这两年,HPC系统的分布明显呈分散化,分布在全国二十多个省市。不过,总体来说,经济较发达的地区,HPC的数量也较多,这二者是有一定的正相关性的。

记者:刚才您介绍到了你们正在引入新的评价标准,请具体介绍一下TOP 100排行榜的入选条件和评价指标。特别是,你们如何来保证相关数据的真实性?

张云泉:目前我们是参照全球TOP 500排行榜的做法,以LINPACK值为准,对参选系统进行评比。虽然有些厂商希望引入一些可能会对其产品更有利的参数。但我们的观点是,由于要取得最优的LINPACK值,需要厂商和用户对系统进行多次、长时间的测试,这对机器的可靠性、工程师的技术水平、系统优化设计能力、耗电水平等都有考量。比如有的大型机器,光是运行一天,电费就要花上好几万块钱。所以,LINPACK值好比是体操比赛中的规定动作,厂商自己有比较优势的方面好比是自选动作。规定动作反映的厂商的基本综合实力。

    下一步,我们计划是引入针对计算机全局信息交换的高维并行FFT标准,这对系统的网络设计、计算与通信的平衡系统架构又会提出新的更严格的要求。国家863计划高性能计算机评测中心也在考虑引入SPEC标准,针对网络、数据库等商业应用领域。

    为了获得真实客观的数据,我们一方面要求厂商或用户在申报时必须提供LINPACK测试的输出文件,以确定他们进行了真实测试。另一方面,数学软件分会在常务理事会层面建立了严格的审核与考查机制,每次排行榜公布之前都要经过常务理事会的集体审核,以确保排行榜最大程度地反映实际情况。第三,我们设有举报制度,鼓励厂商和用户针对其他厂家的系统进行监督和举报。从实际运作情况来看,通过后两种机制每年都会发现一些问题,我们都及时对数据进行了修正。

记者:您对中国HPC产业的发展有什么建议吗?

张云泉:首先我认为HPC决不是一蹰而就的生意,厂商需要把HPC当作长期的战略性业务对待,这个领域是需要深厚的技术积累来做基础的。

    其次,建议政府相关部门制定10-20年的HPC软硬件中长期发展战略,产业政策要有连续性,以往3-4年的规划期显然太短。国外的调研也证实,研制一套对行业有效的行业应用软件,需要至少20人以上的队伍连续做8-10年。

    第三,厂商在技术创新、品质提升、维护服务、技术支持和升级等方面还有待加强,不仅要让用户用得起HPC,更要用好它。

    最后,我们看到,国产厂商虽然已经积累了一定的实力,但在体系架构、硬件设计等前瞻性的技术创新上积累不足,不能一直跟在国外厂商屁股后面走。现在国家也已经下决心推动自主创新,我们的厂商要紧密地跟科研机构合作,缩短研发周期,增强技术储备。

    [编者按]从早期的自建机群到今天的工业标准化机群,从以往对峰值运算速度的偏好到今天对Linpack值和均衡性能的审视,从以往的科学计算应用到今日的商业计算和网络服务应用,HPC在市场和技术发展的同时,也面临着性能评价的诸多挑战,设计出一套公开、公平、公正的评价体系不仅是科研机构和厂商的愿望,更是广大国内用户的企盼。

0
相关文章