服务器 频道

我国高性能计算产业 硬件巨人 软件矮子

  【IT168 专稿】近日,2009年全国高性能计算学术年会在湖南长沙举行。在此次会议上,笔者注意到这样一个看似相互矛盾的现象:一方面我国超级计算机的规模越做越大,另一方面我们却找不到能够让这些大家伙“跑”起来的实际应用。

  让笔者感触颇深的是10月29日同一天发出的两条新闻以及它们的不同待遇:一条是千万次超级计算机“天河一号”的发布,上了央视新闻联播,上了新华社通稿,上了全国各大新闻媒体的头条;另一条是上海超级计算中心出100万元,吸引大规模计算用户的“科学应用规模倍增活动”,却少有媒体问津。一冷一热,却折射出了我国高性能计算产业机器大应用小、“软”“硬”发展失衡的格局。

  硬件的巨人,软件的矮子

  据了解,即将落户国家超算天津中心的千万亿次超级计算机“天河一号”已经取代去年落户上海超算的百万亿次超级计算机“曙光5000A”,成为了今年中国高性能计算机TOP100排行榜的“状元郎”。 “美国在机器制造和软件应用两方面都很领先,西欧很少自己制造大机器,但软件应用水平很高,而中国的现状是,机器制造水平已经比较高,但应用却很弱。”TOP100排行榜创始人之一、中科院软件所研究员张云泉博士在接受IT168记者采访时谈到。

  或许这种失衡体现最为明显的一个缩影是上海超级计算中心。该中心拥有目前国内实际运行中最大规模的超级计算机——计算峰值性能高达230万亿次的“魔方”曙光5000A超级计算机,在全球TOP500排行榜中名列15位,总共拥有的CPU内核数达到3万个,而实际上,应用却远远没有跟上,使用16核以下的作业占到了60%,17-160核的作业占39%,160核以上仅仅占到1%。

  我们再来看看美国能源部下属的橡树岭国家实验室的Jaguar TX5,该系统拥有15万颗CPU核,目前在全球TOP500中排名第二,是一套千万亿次级超级计算机,但其科学计算作业却安排得很饱满,可利用3万以下CPU核的作业占50%,3-4.5万核的作业占32%,4.5-9万核占18%。

  两相比较,差距之大,令人咋舌。难怪上海超算要出资100万元,为用户提供部分计算经费补贴,以此增加用户计算规模,比如原计算规模假设是128-256核,倍增后实际可使用256-512核。作为我国超算领域领头羊的上海超算尚且如此,可想我国高性能计算领域软硬发展不平衡的严重情况。

  从TOP500和TOP100来看,基于“英特尔等X86平台的PC服务器、千兆以太网和Infiniband标准互连网络、Linux操作系统”构成的工业标准化集群系统占了80%以上的份额,因此,毫不夸张得说,今天主流的商用高性能计算系统大部分是建立在英特尔主导的IA架构之上——使用至强处理器的系统比例占到了77%以上的份额,千万亿次计算机“天河一号”使用的也是最新的至强5500处理器[推荐阅读:至强5500:高性能计算的新基石]。对于高性能计算产业软硬不平衡的格局,英特尔又如何看待这一问题呢?

  为此,IT168记者采访了英特尔中国服务器产品经理顾凡和英特尔高性能计算技术专家何万青博士。何万青非常认同张云泉的看法,“现阶段高性能计算硬件机器和软件的差距太大,就象瘸子走路一样。”顾凡也表示,在我们的硬件系统制造水平已经达到千万亿次这样一个领先水平之后,其实更重要的是应用。英特尔每推新一代处理器,都要求能够兼容用户的软件代码,以保护用户的投资。

  寻求大规模HPC软件的突破口

  确实,今天,我们需要的不只是规模更大的计算机,更迫切需要的是能够使用到这些大规模计算资源的应用软件。[推荐阅读:我国高性能计算软件创新急待提高] [化解高性能计算应用的四大尴尬]

  何万青认为,软件应用水平能否跟上来,从应用和技术角度上看主要取决于两方面的因素,一是传统高性能计算用户如石油、气象等领域的实际生产的发展,需要规模更大、更加复杂、精度更高的计算模型和算法;二是软件开发商对多核处理器的支持力度,随着四核、八核甚至未来拥有“若干大内核,数百小内核”的异构众核处理器的发展,高性能计算软件必需为此优化,以充分发挥多核系统的硬件性能优势。

  张云泉博士则认为,要从人才培养、软件投资等方面加强。“国外大型并行软件的开发往往是一个20人的团队坚持10年去研发,而在中国,研发人员只有少数几人,项目周期往往只有3-5年,使得软件开发的成功率就更低了。”

  不过,他也谈到,这一现象正在逐渐得到改观。随着国家对软件越来越重视,过去软件投资额只有硬件投资的一个零头,但现在这一比例也提高到了20-30%;过去高性能计算软件非常缺乏懂并行软件的人才,并行计算在各高校中也比较冷门,软件所在招收研究生时甚至很难招到懂并行计算的本科毕业生,报考者也廖廖可数,但今天,随着多核处理器的普及,很多计算机专业的学生已经了解并行计算,甚至还会使用MPI、OpenMP等编写程序。而且值得注意的是,物理、化学等非计算机专业的学生也开始选修并行计算相关课程,而这些人才是未来使用高性能计算机的最终用户——用高性能计算模拟去帮助科学研究、开发设计新产品。

  在实际生产应用中,虽然总体上软件比较落后,但在个别行业,我们的高性能计算软件应用水平已经有所突破。比如在石油勘探领域,中石油东方地球物理公司是全球最大的石油勘探企业之一,占全球陆上石油勘探份额的40%,但随着生意越做越大,在国外大项目竞争中开始遭遇国外的技术垄断和技术禁令,一个突出的问题就是国外软件根本不卖给你,你的机器规模再大也无用武之地。为此,我国几年前已经投资数亿元开发了自己的地震资料处理软件GeoEast,同时研发了支持处理解释一体化工作模式和满足超大型地震数据处理中心需求的专业软件系统,在一定程度上打破了国外的垄断。

  相反,在CAE领域,国产软件几乎一片空白。在鼓励企业自主创新的大背景下,随着我国从制造转向创造,越来越多的企业开始使用CAE软件设计新产品,进行模拟仿真,但一个残酷的现实是,CAE软件几乎全是国外的,甚至一些精度高的模块也根本不卖给中国公司。张云泉博士告诉IT168记者,中国软件行业协会已经将国产CAE软件作为下一步的工作重点,计划成立国产CAE软件产业联盟,以推动CAE软件的国产化进程。

  给超算中心建设热潮泼点冷水

  除了国产高性能计算软件和应用发展滞后,另一个问题是:如何理性地看待全国上下建设超级计算中心的热潮。近两年,包括天津、成都、深圳等地都在构建大规模的超算中心,更多的省份甚至地市也把超算中心或云计算中心当作提高信息化服务水平,吸引外商投资的一个法码。但另一方面,据业内人士透露,目前包括上海超算中心曙光5000、中科院超算中心深腾7000等大规模计算机系统都处于“机器用不满或缺少大规模应用”的状态,有些高性能计算中心甚至连运营都难以维持,可见,超算中心这碗饭其实并不容易吃。

  在中国现有的投资模式下,一般在采购机器时政府会投资一部分,但建成后就要求超算中心能够独立发展,自负盈亏,一旦缺少用户,就会面临生存压力:巨额电费、系统折旧都是不菲的开支。

  据了解,一套超级计算机的使用周期在5年左右,如果在这5年里机器的使用率不高,一直处于空闲状态,就很可能收不回投资。比如,2004年落户上海超算中心的曙光4000A性能达10万亿次,位居当年TOP100的第一位,而5年之后,已经落到了第83位。2004年曙光4000A的总投资近1亿元,而今天同样10万亿次的计算能力只要百来十万元。而且,不可忽略的一点是,曙光4000A每天满负荷运转一天的电费就高达1万元!

  因此,笔者在这里为超算中心的投资热浇点冷水:想好了再上!想想在可预测的技术生命周期里能否收回投资;想想当地有没有用户基础,尤其是大客户的支撑,能不能够让机器不停地运转,而不是闲置;想想有没有可能采用更合理的投资模式和运营机制,让超算中心可以做到可持续发展……

0
相关文章