服务器 频道

上海超算“魔方”最快明年5月投入运行

  【IT168 专稿】11月29日,2008年全国高性能算法软件研究开发研讨会在北京举行。上海超级计算中心高性能计算技术总监姚继锋博士在会上透露说,基于超百万亿次曙光5000A的上海超级计算中心“魔方”系统最快要到2009年5月才能正式投入运行。

    据了解,自今年6月份“曙光5000落户上海超算中心”的签约仪式在中科院计算所举行以来,曙光5000项目的进展比较顺利,9月份在曙光公司天津生产基地正式下线,随后在中科院计算所进行安装调试。目前包括中科院计算所、上海超算、清华大学、中科院软件所、中科院数学与系统科学研究院等都对这套系统进行了一系列测试和试用。在今年11月份,曙光5000A以180.6万亿次每秒的Linpack成绩在中国高性能计算机TOP100和全球高性能计算机TOP500中分别取得了第一和第十的佳绩。

    有意思的是,目前全球TOP10超级计算机大多都取了充满个性的“别名”,如IBM的走鹃(Roadrunner)和蓝色基因(BlueGene)、CRAY的美洲虎(Jaguar)和红色风暴、SGI的“Pleiades”、SUN公司的“Ranger”等等,为此,上海超级计算中心此前也对即将入驻的曙光5000A主机在全国范围举办了征名活动。该活动历时3个月,反响热烈,全国关心高性能计算的人士通过网络和信件提交了一批有特色、朗朗上口的主机名字,经过几轮的删选,最终定名为“魔方(Magic Cube)”。上海超算方面表示,之所以采取这个名字有三方面的含义,首先是“魔方”代表了对未知的探索和大自然的无穷变化;其次在魔方转动过程中寻求规律、最终达致完美几何和图案,也契合科学研究工作者在看似无序的世界中寻求物质本质和自然规律的特征;最后,魔方的变化多样性体现了现代超级计算机的可重构特性。

    姚继锋在会上谈到,未来的“魔方”系统在实际配置和应用上和目前入选前十的曙光5000A还会存在许多不同之处,主要表现在几个方面:1)此前参加TOP500的曙光5000全都是刀片服务器节点,而魔方有大约1/8的节点采用八路四核的胖计算节点,单节点可以做到128GB内存,以满足对内存需求大的部分应用的需求;2)整机会被划分成几个部分进行管理,除了保留100万亿次的规模外,另外还会有一些小规模的部分用来满足有特殊需求的应用;3)此前测试系统采用的都是Windows HPC Server 2008操作系统,而魔方仅有少量节点会部署Windows系统,大部分会采用Linux系统;4)700TB的存储和并行文件系统也会增加上去;5)另外会增加作业调度管理系统,移植有源数值模拟软件,新增或升级部分商业HPC软件。“我们在年底会先搭建出一个15-30万亿次的小环境,但整个系统预计最快要到明年5月份才能正式投入运行。”

    随着高性能计算机的规模越来越大,对其功耗、可管理性、可扩展性和可靠性都提出了很多新的挑战。在此次研讨会上,中科院计算所助理研究员霍志刚介绍了曙光5000A的测试心得,清华大学计算机系陈文光教授分享了曙光5000A的通信性能测试结果,中科院软件所和数学与系统科学研究院的代表则介绍了曙光5000A在大规模天体数值模拟、三维时谐电磁场计算和FFTH的测试情况。总体来看,测试过程中碰到的问题大多得到了较好的解决,大家对曙光5000A未来的应用前景都充满信心。

    不过,姚继锋也表示,对于未来如何用好这样一台超百万亿次的计算机,还存有一些不确定的因素。如当前大部分作业所使用的规模都不超过64颗处理器,未来扩展到1000多个CPU的应用很难找到,从算法到软件都有很多工作要做。“百万亿次系统需要容量计算,更需要能力计算,以解决各个应用领域现有系统无法实现的模拟计算。”

    其实,机器和应用的关系就好比是“先有鸡,还是先有蛋”的问题。姚继锋谈到,在2004年曙光4000A出现时,也有人质疑有没有应用能够用得上这样一台大机器,结果不到一年,曙光4000A的计算任务就饱和了。上海超算在2005、2006年就对用户的需求进行了详细的调研分析,当时发现未来三年需要70-80万亿次的计算规模,因此提出了100万亿次计算机的规划,但由于技术的发展,今天实际可以实现200万亿次的计算规模。因此,下一步,上海超算将对应用进行筛选,与用户进行需求沟通,对重点软件进行测试分析,扩展软件算法,找到有能力需求的用户。也希望国内有高性能计算需求的用户可以到上海超算中心进行测试试用。

0
相关文章