【IT168 评论】近些年,高性能计算、云计算、类脑计算、边缘计算、量子计算等计算形式频频出现在我们的视野中,相应的需求也越发多样,我们似乎进入了百花齐放的计算多元化的先进计算时代。
而高性能计算在这个节点上也面临着新发展和新突破,一方面是计算能力的优化升级,另一方面则是会更加注重与应用的融合。
作为一家以高性能计算起家的企业,曙光始终将探索先进的计算技术作为公司的一项重要内容。近日,“第13届全国高性能计算学术年会”在安徽举办,会议期间,曙光与中国科学技术大学就“EasyOP高性能计算在线服务平台(安徽分中心)”举行授牌仪式。
曙光公司副总裁任京旸表示,“先进计算时代来临之际,这是对服务专业化的探索与具体实践。”EasyOP高性能在线服务平台是互联网+与现代科技服务业有机融合的创新型服务新模式。
EasyOP如何帮助企业解决疑难问题?
当前,HPC发展的集群规模、计算种类越来越丰富,同时交互方式也发生了变化,慢慢衍生出专业的超算中心来提供运维并维护规模集群共享式的服务。为此,曙光早已从2015年就开始做一些尝试,从硬件、软件和服务入手,为最终用户提供便利的服务。
据EasyOP产品总监首席运维架构师安磊介绍,曙光于2014年就加入了中科院先进计算创新与产业联盟,作为理事长单位,曙光近水楼台先得月,将以往的经验、应用甚至是管理办法长效结合起来,完善先进计算的服务,向用户提供以应用为导向的计算框架设计。
2016年,曙光开始跟科大的网络中心联合为科大各个科学院课题组做运维服务。目的就是解决用户日常管理问题、使用问题并且能够更好地利用闲置资源。同时,针对不同应用的不同特征做深层次的优化。
在大数据领域,曙光面向专业用户提供生产数据的相关服务。比如,有一些生物基因类的测序数据很大,测试时间也很长,因此,需要考虑把它变成一个通用的共享的服务,循环使用数据或提供给需要人群。
其中最为重要的一方面就是通过EasyOP的运维平台与科大网络中心成立联合运维的初步试验田。在这里面曙光构建了一个专门针对HPC安全分析的云数据中心,通过它的分析,为用户提供硬件系统的运维、超算系统的巡检、应用软件调优和作业报表分析这四项功能,以达到一个“线上、线下并举,远程、本地共存”的这样一种运维多维度的服务尺度。
EasyOP从2015年11月开始初步尝试运营,到现在已经经过了22个月的发展周期,为80个以上的用户提供了高性能计算运维方案,监管的节点超过了1万个,并且对所有的接入集群的各个节点覆盖超过180项的监控指标。为大约750万个作业提供了类支持服务,其中有40%以上提供了针对应用特征的优化,涉及CAD、气象、海洋、物理、生物、高分子和深度学习等领域。
在这些应用的上下游整合和打通上,曙光实现了应用+数据的整体优化评估,而且是对整个计算模型做深度的优化评估。此外,曙光按照用户的行为提供更高级别的维护和优化方案。因人而异,根据用户的使用习惯提供一套灵活的而且适用于用户体验的运维方案。
中国科学技术大学计算机科学与技术学院的李京教授则表示,科大也做了相应的努力。一方面是虚拟化,把云计算跟高性能计算进行整合。另一方面,科大也在尝试利用用户的作业数据和平台运行、生产的数据,对用户的应用进行优化,对作业的执行时间进行预测,优化调度算法,提高资源的利用率。然后通过EasyOP整合的监控和数据采集,对它们进行分析。
科大与曙光的携手,解决了科大在人手和经验上的不足,减轻了运维压力,提高了运维水平;利用监控、采集产生的数据提高了效率,这也就意味着成本的降低;科大还可以借助EasyOP更好地选择相应的架构。对于安徽省来说,将推动其产学研用一体化快速有效轮动发展,进一步升级中部地区科技服务水准。
曙光如何提高HPC的使用率和可用率?
EasyOP关注的是系统交付给用户之后使用阶段怎么保障这个系统很好的效率。那么,曙光是如何提高高性能计算机的效率的呢?曙光公司HPC产品事业部总经理李斌认为,整个系统的利用率、可用性等应该是贯穿到整个高性能计算机的生命周期里的。分为几个阶段:
第一,在规划阶段就根据用户的应用特征制定合理的方案,当然,需要考虑数据安全性和冗余的配置等。
第二,要在高性能计算机出厂之前就进行质量控制,把一些潜在的问题规避掉,对整个系统进行压力测试、稳定性测试,使系统处于一个简括的状态交付到用户手中。
第三,对系统进行深度优化,然后试运行磨合,做调度策略的优化,以保证系统的良好状态。
第四,EasyOP平台可以非常及时地解决用户在使用过程中的各种问题,定期给用户系统进行健康检查,分析平台累积的数据,对系统进行一定的优化指导。
曙光先进计算领域的战略规划是什么?
在HPC CHINA 2017大会上,曙光除了介绍了在先进计算领域像全产业链的一些拓展,还阐述了一些具体的战略规划。
任京旸表示,曙光不仅仅支持单一的高性能计算,现在还支持多种计算形式,另外,曙光不仅支持硬件也开始支持软件和计算服务,逐渐走向全产业链。
目前曙光在计算服务方面主打的EasyOP高性能计算在线服务平台通过专业的运维平台和定制的托管服务还有专家的深度支持,能够为用户提供一个HPC应用服务市场,最终形成以EasyOP为依托的交易生态的平台。EasyOP也会从Easy Operation的角色变成Easy Online Caller的角色。曙光也希望通过这个平台更好地加速未来丰富多彩的计算服务时代的到来。
先进计算是中国变道超车的机会,也是曙光抢滩先进计算,赢得计算技术战略制高点的较好机会。EasyOP安徽分中心的落成,不仅为安徽省打造了综合性科学中心,为其在优势产业、领域形成全球竞争力提供支撑,而且,曙光打造的这块先进计算“招牌”,或将引领我国的先进计算能力走向世界。