服务器 频道

打造混合计算架构 华东理工发展GPU+CPU

  【IT168 案例】在信息经济时代,先进生产力发展的标志就是计算技术。在这种先进生产力中,高性能计算更是具有代表性。目前,计算科学(尤其是高性能计算)已经与理论研究、实验科学相并列,成为现代科学的三大支柱之一。高性能计算作为一种先进的科研手段,在国内的应用发展很快。尤其在高校,高性能计算得到了普遍的重视,近年来国家投入逐年加大。

  随着高校数字化校园建设的深入,高性能计算机的应用已经渗入到各级教育行业当中。构建高性能计算平台已经成为各大高校提高教育质量的重要手段。而随着用户不断增加,海量信息处理、信息开发和科学研究使各大职业技术学院对高性能计算服务的需求越来越高。学校希望利用高性能计算平台进一步提升教学质量和学校科研实力。一般的高校在选择服务器时不仅对高性能计算能力要求较高,而且对产品的性能、大规模集群监控管理以及服务进行综合考虑,因此对于具有高性能、高扩展性等高性能计算平台有着极大的市场需求。

  用户简介:

  位列国家“211工程”重点建设行列的华东理工大学,历史追溯到100多年前的南洋公学和震旦学院,是1952年全国高校院系调整时由交通大学(上海)、震旦大学(上海)、大同大学(上海)、东吴大学(苏州)、江南大学(无锡)等校的化工系合并组建而成的全国优异所以化工特色闻名的高等学府。经过半个多世纪的改革与建设,现已发展成为特色鲜明、多学科协调发展的研究型全国重点大学。

  学校在技术转移与产学研合作方面特色鲜明,处于全国领先地位。入选了首批国家技术转移示范机构,加盟了“新一代煤(能源)化工”、“汽车轻量化”、“抗生素”等三个优异技术创新战略联盟,特别是向美国最大的炼油企业Valero公司进行的“石油焦气化技术”实施许可,标志着中国大型化工成套技术首次向美国等发达国家实施技术转移,也是中国高校迄今为止获得的最高海外技术许可费用项目。

  长期以来,华东理工大学一直朝着把学校建设成为国内一流、国际知名、学科特色鲜明的高水平研究型大学的总体目标前进,并且一直在努力着。

  用户需求:

  华东理工大学作为国内知名的高等学府,其设有的研究基地和研究项目为国家的发展做出了巨大的贡献。在曙光公司的助力下,华东理工大学已经建有高性能计算集群系统,原有系统由32个曙光4380A计算节点+登录节点+管理节点+IO节点+ 存储系统Myrinet高速计算网络构成。该系统自2006年成功部署后至今使用情况稳定,具有高利用率,低故障率等特点,保证了学校所有用户的正常使用,顺利的协助用户完成相关的科研工作。

  但是随着社会的发展和研究项目的需求,原有的这套系统已经无法满足庞大的研究需求,所以华东理工大学急需在原有的系统之上建设更为成熟、更具高标准的系统平台。

  华东理工大学高性能集群计算机系统是用于华东理工大学材料设计、催化剂设计、药物设计、计算生物学、流体与固体力学计算等领域的科学研究,促进相关学科科研的发展,因此对成熟稳定、高可靠、高性能的系统平台方案有着巨大需求。

  针对性的解决方案:

  曙光公司作为服务器行业的领军者,服务器资源有着得天独厚的优势。近年来,曙光公司为国内众多高校构建了众多具有高标准、高水平、高性能的系统平台,能够满足不同高校多不同研究领域的计算需求。此次构建高性能集群系统,华东理工大学原有的曙光高性能系统为曙光公司构建全新的系统平台提供了方便。此次构建的系统能够最大程度地满足华东理工科研工作对高性能计算能力及存储需求。

  本系统采用曙光高效能计算机架构来构建,采用CPU+GPU的混合架构,由7个机柜组成,用来安装GPU专用机和曙光A840r-H计算节点,管理、登录、I/O节点、高速交换机、存储等设备。

  曙光高效能计算机力求在体系结构、多处理机芯片组、高性能节点操作系统、高可扩展互连网络、高吞吐率通信软件、多线程分割全局地址空间编程模型及编译器等核心技术上实现较大突破;并提供高效能计算机的高密度节点、可靠的系统结构、虚拟化软件、高效能海量存储、并行文件系统、大规模系统的管理软件、系统级鲁棒性技术、超大规模并行算法等产品及技术,从而实现系统的高性能、可编程性、可移植性和稳定性。

  本方案的最大特点是采用了GPU专用机。GPU专用机兼容目前主流的32位及64位应用,并且专门针对CAD、仿真模拟、动画制作以及CG渲染等应用进行了优化,主要面向电影,设计,动画,建筑,机械,石油等行业用户。它能解决可表示为数据并行计算的问题——在许多数据元素上并行执行的程序,具有极高的计算密度(数学运算与存储器运算的比率)。

  GPU专用机系统采用最新推出的Intel 5500系列至强处理器和高性能芯片组,支能够持1333/1066MHz高速前端总线,极大地提高整机性能和运行效率。支持6块内置硬盘,机器提供的集成SATA控制器和SATA RAID功能在提供强大的性能的同时保证了数据的安全,同时,四根第二代PCI-E×16扩展插槽提供了更高的数据传输率,为用户的高端显示需求提供了保障。不仅为系统平台提供了超群的高性能和高可靠性,而且为以后的平台升级预留了空间。

  在计算系统方面,曙光公司采用了开放的Cluster集群系统,它拥有的独特优势已经占据了目前高性能计算机的主流位置,在TOP500中占据了80%以上的份额,在中小规模的高性能计算系统中更是占据统治地位。

  而本方案的网络系统的设计则从性能和可靠两个原则出发,采用2套网络。网络配置都考虑了扩展余量,以便系统扩充。该方案设计充分考虑到了计算节点、存储节点、网络交换机的性能参数,在保证了系统稳定的前提下,使每台设备都能得到最大限度的利用。

  存储系统采用曙光新一代Gridview大型机综合管理系统来提供统一的集中式监控平台,具备可扩展性、集成性、可靠性和易用性等特点。

  管理系统架构图

  方案特点:

  1、先进性:本系统采用先进而成熟的技术和产品,适应大规模科学计算及数据处理的需要,所选设备指标应具有适度超前性,使整个系统具有较强的生命力,并具有更高的密度、更好的扩展性和更好的可管理性;

  2、完整性:本方案为用户提供了一个完整的、整体的解决方案。在系统基础硬件之上,配置了SKVM系统和集群管理软件、作业调度系统,使得各个子系统可以完好整合。完整性还体现在:

  3、硬件和系统的完整性:本方案是一个完整的解决方案,用户无需增加额外的硬件和软件即可保证系统中所有设备正常运转。

  4、应用的完整性:本方案不仅是硬件和系统软件的解决方案,同时也是应用层的解决方案。

  5、完整的培训和文档:曙光公司不仅让用户能够使用机器,而且还让用户能够用好机器。为此本方案提供了一系列的培训,培训课程分别针对不同的人员,包括:普通用户、系统管理人员、开发人员;培训的内容包括从集群的简单使用到并行软件的研制和并行算法的设计、从系统的管理和日常维护到设备的原理等一应俱全;训的教师也包括一线经验丰富的技术工程师和长期从事科学研究的中科院计算所的专家。在有完备的培训的同时,又为用户提供了完备文档。

  兼容性

  本方案采用了应用最广泛的X86-64平台,兼容性有了更好的保证。可以运行64位应用的同时,还可以兼容32位的应用,普通的32位应用软件可以不经过重新编译直接运行在这样的系统之下。这样,用户就可以由32位平滑的过渡到64位。

  稳定性

  曙光高性能计算机具有较高的稳定性和可靠性,受到了用户的广泛赞誉和有关部门的认可。

  小结:

  曙光公司为华东理工大学量身定制的解决方案得到了用户的高度认可,能够有效的满足华东理工大学的研究以及计算需求。曙光公司作为国产服务器市场的领军队伍,历年来为用户提供了大量的行之有效的解决方案,曙光的产品技术均达到用户对于大规模系统建设的需求。

  此次为华东理工大学构建的曙光集群系统平台为华东理工之后的研究课题提供了重要的技术保障。在实现简约管理的同时,大大减少了用户的后期维护和管理成本。相信在曙光公司的助力下,华东理工大学将为我国的科学研究以及人才培养能够做出更大的贡献,而华东理工成为国内一流、国际知名、学科特色鲜明的高水平研究型大学的总体目标也将指日可待。

0
相关文章