【IT168 评论】大概在4年前的HPC China 2012大会上,我第一次接触到了“E级计算”这个名词,也知道了“百亿亿次”所代表的真正含义。不过在那个时代,超算的性能刚刚进入亿亿次的时代,美国的超算“泰坦”还是TOP500的冠军,也是迄今为止的最后一个冠军。
继“泰坦”之后,中国的天河二号连续6届蝉联TOP500冠军,另一台超算“神威太湖之光”也是在2016年两次荣膺TOP500冠军。这一切变化所带来的,不仅仅是中国超算的崛起,更使得超算的最高速度从达到了十亿亿次的量级。
看起来,人类距离百亿亿次的梦想只有一步之遥。或许当我们终究超越百亿亿次的时候,回头再看这仅仅是超算历史上的一小步,但是对于当下的超算从业者来说,这却是系统研发的一大步。
这一步有多大,外人可能不甚了解,但是对于从业者来说,这一步就是星辰大海。别看仅仅是性能提升10倍,但是在现有的情况下,每次提升都是非常艰难的过程。纵观几年的发展,从泰坦到天河二号,我们只用了半年的时间就实现了性能的翻倍,但是从天河二号到太湖之光,却用了3年的时间。
说好了三年,三年之后又三年,三年之后又三年——《无间道》
照此进度,按照硬件技术的发展水平,想要实现百亿亿次似乎应该是很久远的事情。可惜时不我待的是,人类对于计算的需求没有尽头,对于计算的需求也有着无尽的渴望。于是乎,业界对于E级计算(百亿亿次)的时间给出了近乎相同的时间点——2022年。
想要在短短的6年之内实现性能的10倍提升,就需要解决摆在眼前的四个难题——“功耗墙”、“编程墙”、“存储墙”、“可靠性墙”。简而言之,“功耗墙”和“存储墙”解决百亿亿次平台的硬件系统搭建问题,“编程墙”解决软件与应用层面的问题,“可靠性墙”则解决如何用好百亿亿次的问题。
在正在召开的美国SC16超算大会上,曙光发布了中国首个“E级计算技术路线图”,从计算系统、网络架构、存储架构、系统软件、冷却系统、应用支撑等多方面提出了E级系统的解决方案,来验证E级机研制开发的可行性。之前,在我国“十三五”高性能计算专项课题中,中科曙光、国防科技大学以及江南计算技术研究所同时获批牵头E级高性能计算的原型系统研制项目,形成了中国E级高性能计算“三头并进”的局面。
作为“三头并进”其中唯一的企业,中科曙光开诚布公的将自己的E级系统的解决方案展示给世人。这款方案可概括为:超融合自适应并行处理体系结构、基于自主可控处理器的高性能计算节点、高性能高可扩展的Tours互连通信、超融合和应用软件自适应性设计、高效全浸式相变冷却和多维度自适应能耗管控、多层次多协议高性能存储系统、多层次综合容错技术、大规模并行应用移植与优化,这些方案将最终在原型机系统上进行效能验证。
“曙光研制的E级高性能计算系统原型机通过超融合计算和应用自适应技术,具有良好的生态环境和广泛的应用适用性,可以良好的支撑高性能计算、深度学习、大数据、云计算等多领域的应用。”曙光公司高性能产品事业部总经理曹振南说。
其实不仅仅在中国,在世界领域中,E级计算都是非常困难的课题,也是摆在超算发展面前的一座“高峰”。目前,美国、欧洲、日本等国家和地区都提出了自己的E级超算研发计划,但是曙光本次率先在SC大会上提出“E级计算技术路线图”,也引起了众多国际人士的关注。作为中国高性能计算的领导企业,曙光走出国门的时间还不长,但是凭借着液冷、E级计算等产品、技术上的优势,很也在国际上站稳脚跟,并且与许多国家的超算中心展开合作。
应该说,厚积薄发的曙光在高性能计算的各个领域都已经结出了累累硕果。“地球数值模拟装置”原型系统应用于地学研究;捍卫“阅兵蓝”、助力“西湖蓝”,为空气质量保障工作提供技术支持;为天宫二号航空航天事业中轨道设计、实时计算等提供坚实的计算支撑;为FAST中海量数据的高速传输和分析提供完备的计算条件;对E级计算建设的有益探索……曙光始终积极结合应用匹配研发,将高性能计算从传统的科学工程计算向更广阔的天气预报、石油勘探、核能开发利用、汽车碰撞、电磁辐射、流体力学、基因测序、材料科学等领域推广。
“SC大会不仅仅是展示曙光技术成果和产品应用的舞台。”曹振南说,“更关键的是我们要利用这样的国际平台,与国际超算力量深入交流,为我国超算系统在尖端开发、技术发展趋势把握、应用支撑和市场转化等诸多方面贡献力量。”