服务器 频道

国防科大卢宇彤:天河二号的创新科技

  【IT168 资讯】“根植应用 引领创新--2013年高性能计算用户大会”于9月25日在北京隆重举行。大会由浪潮集团联合清华大学、国防科学技术大学等多家单位共同举办,旨在促进高性能计算用户间的技术交流、经验共享,推进超算应用的发展。届时,来自中国科学院、中国航空研究院、国防科学技术大学、清华大学、上海交通大学、华中科技大学、西北工业大学、西安交通大学、华大基因、中国石油BGP、Intel、Mellanox等业内顶尖专家、领导厂商等数百位超算专家、用户、厂商代表将云集一堂共同探讨交流超算系统与应用的发展。

国防科大卢宇彤:天河二号的创新科技
专题地址:2013年高性能计算用户大会

  超级计算机一直以来被广泛应用在一国军事武器、顶尖科技、电信等领域,涉及国家军事和经济机密,如何保障这部分的数据安全显得尤为重要。在“棱镜门”事件的驱使下,英国等政府已逐步加强对高性能计算、云计算等领域的自主科技创新投入,作为刚登顶世界超算TOP500榜首的中国自然也要加强自主可控科技创新的发展,大力培植本土HPC厂商。

国防科大卢宇彤:天河二号的创新科技
▲天河二号主任设计师国防科学技术大学教授 卢宇彤

  天河二号:中国超算迈出了自主可控的一步

  本次大会还邀请到了天河二号、中国科学院、中国航空研究院、清华大学、上海交通大学、华中科技大学、西北工业大学、西安交通大学、华大基因、BGP、浪潮集团、Intel、Mellanox等业内顶尖专家、领导厂商就海内外高性能计算的应用创新与技术发展、软件开发和算法优化、系统运维管理等展开广泛交流深入探讨,共同探索高性能计算的创新与应用发展方向。

  与此同时,天河二号主任设计师国防科学技术大学教授卢宇彤女士还对我国超算自主科技创新的社会焦点话题展开论讨。2013年6月,来自中国的天河二号问鼎全球最快超级计算机,“天河2号”具备16,000节点、总计3,120,000个计算核心,强大性能震惊全球。海内外超算专家、学者、用户和权威媒体一致认为:天河2号超级计算机问鼎全球最快超算系统标志着中国在超级计算机研制的自主可控方面又迈出一步。

  据了解,天河二号有五大特点,一是高性能,峰值速度和持续速度都创造了新的世界纪录。二是低能耗,能效比为每瓦特19亿次,达到了世界先进水平。三是应用广,主打科学工程计算,兼顾了云计算。四是易使用,创新发展了异构融合体系结构,提高了软件兼容性和易编程性。五是性价比高。

  “超级计算机研制难,用好更难。”这是国际超算领域的普遍认识。天河二号主任设计师国防科学技术大学教授卢宇彤说:“我们不仅要研制世界性能最高的超级计算机,而且要研制稳定可靠、应用广泛的超级计算机。”与国外超级计算机主要针对科学工程计算不同,天河二号在强化科学工程计算的同时,可高效支持大数据处理、高吞吐率和高安全信息服务等多类应用,使得天河二号应用面更宽、易用性更好。

  天河二号五大设计新突破

  天河二号的新突破,包括了架构、计算、互联、存储和编程模型等5个方面。首先从架构来说,天河二号采用的是“异构多态”的新模式,不仅是应对传统的高性能的科学计算进行构建,同时兼顾了信息处理、数据分析等等需求,整个系统的计算模式以I/O数据吞吐为主。其次就是天河二号采用了微异构的方式,通过采用至强处理器+至强融核协处理器的方式,整体运行在X86架构中,进而保证了系统的兼容性、适用性和易用性。第三,除了用于计算的处理器之外,天河二号还采用了核高基自主研发的飞腾系列处理器进行日常事务的处理和信息服务,同时在互联互通方面采用了软硬件联合设计,进行了许多优化的工作,充分能够满足到未来更大规模的网络系统构建需求。第四,在存储方面,采用了多层次的容错设计,对于大数据的信息处理、大数据的支持以及我们科学计算都有很好的兼顾和适配。在软件方面,我们采用了机器管理机器的自治故障管理技术,使系统能够及时的发现故障、诊断故障和处理故障。最后,在编程模型方面,天河二号的编程框架也进行了许多优化,使其不仅能够像传统超算一样支持科学计算,在信息处理、数据服务方面也有自己的技术特色。

  现如今,天河二号作为世界业内知名的超级计算机,其理论峰值性能超过了5亿亿次,但是距离未来我们将要实现的百亿亿次目标依然有着不小的差距。对此,卢教授表示--目前天河二号拥有1万多个节点,未来计划将节点数量增加到3万甚至5万个。但这并非是简单数量的增加。随着节点数量的提升,在管理和能耗方面的问题也将彻底凸显出来。从目前天河二号来看,计算节点的能耗约为18兆瓦,再加上散热系统的整体能耗在20兆瓦以上,但达到5万个节点以后,能耗问题会进一步凸显,如何采用更低能耗的计算器件、更低能耗的冷却系统是将来要攻克的第一个技术难题。

  同时,目前天河二号采用的网络结构将难以支撑未来5万个节点以上的系统规模,因此必须寻求改变,使用其他结构也将成为迫在眉睫的问题。另外,在系统可靠性方面,单纯依靠人力进行上万个节点的管理已经是极限,如果达到5万个节点之后,如何及时发现故障、管理故障、排除故障?未来天河二号将采取“机器管理机器”的模式,降低运行风险。总体归纳起来,随着节点数量的大量增加,运维方面将会面临能耗、可扩展性和故障管理等可预见性的难题,这也是目前研发小组正在进行的科研工作。

0
相关文章