【IT168 案例】深圳光启高等理工研究院(以下简称光启研究院)自2010年7月揭牌成立后,吸引了多个国家和地区的杰出科学家,在充满活力的交叉学科合作中,建立起具有广阔国际视角的科研环境。不到两年的时间内,光启研究院已经成为中国超材料技术的领军企业。
2011年,光启研究院全面启动超材料制备与封装技术重点实验室等5个重点实验室和超颖射频技术工程实验室等6个工程实验室的建设,在光启的实验室中,曙光GPU解决方案通过跨越“三重门”,成为集群管理成功的关键。在“隐身英雄”曙光的帮助下,高性能计算取得了良好的应用,光启研究院的计算能力与计算速度取得了大幅提升。
三重考验 挑战集群管理操作能力
因为研发需要,光启研究院GPU集群所承担的大部分科研工作需要使用三个关键的仿真软件作大规模计算,它们软件对集群的要求各具特色:
仿真软件A在分布式计算时,要求头结点必须是Windows操作系统,计算结点必须是Linux系统;可以使用GPU加速,单结点可以挂载多颗GPU;自带MPI通信工具;自带作业调试器。
仿真软件B有两种应用场情:单个大作业、多个小作业。计算时需要调用仿真软件C,因此需要将软件B与软件C恰当配置,使之协同工作。
仿真软件C支持GPU加速,同时支持分布式并行计算,自带作业调度工具,客户端不必登录服务器就可以提交作业、查看结果。
三个大型软件同时工作时,普通的GPU根本无法满足如此大规模的计算需求,往往会陷入崩溃的状况。针对光启研究院的特别需求,曙光公司迎难而上,制定了一整套GPU解决方案。
一个集群管理软件Gridview PK多个作业调度器
要满足光启研究院的需求,既要整合三个软件到同一个作业调度系统之中,又要避免三个软件使用各自调度器带来的资源竞争和资源闲置。这是一个极具挑战性的任务,必须深入了解这三个商业软件的架构,实现无缝融合,让软件用户感觉不到作业调试系统的改变。
为此,曙光公司研发人员认真研究了光启的应用需求。光启研究院的科学家是超材料的专家,却不是IT专家,怎样让他们不必登录集群、不必学习Linux命令,只需打开浏览器就可以直观地提交作业、查看计算结果呢?光启近二百位科学家几乎每天都在使用集群,而且运算能力越高越好,就需要GPU越多越好;光启的机房剩余空间不多,必须提供计算能力密集的服务器;还要考虑同时配置Windows结点和Linux结点,以便使用仿真软件A,两类结点要统一调度;而且单个作业需要使用多颗GPU,GPU间通信需要高速互联网络……
最终,曙光公司决定使用集群管理软件Gridview中的作业调度模块替代仿真软件A和仿真软件C自带的作业调度工具,实现作业的统一调度。曙光公司集群管理软件Gridview支持定制开发portal,集群管理员可以快速开发出特定应用软件的portal。
而且曙光提供的GPU高性能解决方案系统中的大部分结点都部署了SUSE操作系统,少量结点部署windows虚拟机。仿真软件A的头结点仅仅分发作业,并不承担计算任务,负载较轻,虚拟机即可胜任。单个物理结点上部署多个虚拟机,节约投资。
在有限的预算内,曙光还配备了二百余块NVIDIA Tesla C2050 GPU卡,使CPU与GPU的数量达到1:1的非常好的比例。每个主板上挂载两颗GPU,这两颗GPU之间的通信不必通过网络交换机,使用本地内存即可完成,大大减少了通信开销,提高应用的扩展性。
当GPU跨结点并行时,通信开销往往成为性能提升的瓶颈。为此,曙光GPU高性能解决方案配置高带宽低延时的InfiniBand QDR网络互联设备,任意结点之间都能达到全线速40Gbps,是业界最好的网络。采用极高密度的曙光GPU服务器,在1U空间实现两颗CPU+两颗GPU的计算能力,使光启研究院有效节省机房面积,提高了计算能力与计算密度。
在光启研究院项目准备、实施过程中,曙光公司做了大量的定制研发,尤其是面对作业调度系统整合、极高密度GPU服务时,充分体现出多年深耕高性能计算的实力。曙光从单一服务器硬件供应商向“信息服务供应商”的转型之路,渐行渐近。