服务器 频道

曙光机群服务器助力山东科大数字仿真

  【IT168 报道】还记得曾经热映的“I, Robot”这部电影吗?电影中描绘的未来机器人世界让我们大开眼界,里面半透明的机器人造型也是十分惹眼,豪不夸张地说,正是逼真而又新奇的仿真技术最终成就了这部影片。随着计算技术的不断进步,数值仿真技术也得到了长足的发展,山东科技大学资源与环境工程学院是矿业工程和岩土工程领域数值仿真技术研究的领先者。随着仿真分析数据的日渐增多的,迫切需要建立高性能计算机群研究应用平台的山东科大资环工程学院与曙光公司携手,共同打造这一国内最为先进的数值仿真技术科研平台。

 如何解决“拦路虎”

  当前,数值仿真已经从处理弹性静力问题,发展到处理粘弹塑性、强非线性、大变形以及多场耦合问题,计算规模也从只对简单矿洞进行分析,发展到能对整个厂矿区进行系统级的模拟。相应地,对计算能力的要求也越来越高,普通的PC机已经远远不能满足要求,需要高性能机群来建立强大的应用平台。

  山东科技大学资源与环境工程学院对系统提出了严格的要求。随着仿真分析的深入,学院将面临更加繁琐、复杂的计算,这就要系统具备强大的计算能力和先进的技术,在64位应用的基础上还必须能够兼容32位。同时,由于整套系统是一套对外提供计算服务的系统,主要以服务提供为导向,对系统内采用的平台选择为通用平台,能够运行Windows、Linux、Unix三大操作系统,以及学院内各学科众多的应用软件,这就要求系统必须具有良好的兼容性。此外,由于系统节点众多,简洁灵活的全方位管理、监控系统就显得尤为重要,而在上述需求的基础上,低功耗、高环保则成为了保证系统正常运行,减低系统运营成本的重要因素。

突破“仿真计算”瓶颈

曙光TC4000L双核机群数值仿真方案拓扑图

  为了满足山东科技大学资源与环境工程学院系统的需求,在曙光提供的整套方案中特别配备了节点、管理和存储三大系统。其中,挑选了31台曙光天阔R210A服务器作为节点系统承担庞大的计算工作,另有1台天阔R210A服务器作为管理节点。作为应用环境的动力来源,曙光天阔R210A服务器采用了AMD 64架构和Hyper Transport技术,为系统强大数据运算和处理的需求提供了强大的动力,再加上所有节点之间都通过D-LINK DGS-1248T高性能千兆以太网交换机连接到一起,有效实现了所有计算节点之间的高速通信融合。

  数值仿真技术是一门精度需求极高的学科,通常需要计算机长时间的运行计算,因此对于系统平台的可靠性有着极高的要求,系统节点采用了高密机架式设计,其独特高效的散热结构为系统可靠性提供了保障,同时,系统植入的曙光硬件监控和管理系统,可独立检测系统的硬件故障,自行启动冗余部件并向用户作出提示,并且系统提供了多种故障部件冗余功能,包括CPU过热保护,自动负载平衡的冗余网卡,全部自动控制的冗余风扇等,这些都大大提高了系统的可靠性。

  此外,由于硬件系统将为应用平台提供极高的运算能力以及可靠性能,负载的功耗往往会成为用户的“难言之隐”。针对这种情况,曙光机群服务器通过系统的良好扩展性,合理利用外设资源,并对系统节点采用低耗环保设计,极大程度上满足了应用需求。作为节点服务器,曙光天阔R210A 可最多支持16GB内存,支持2个热插拔SCSI硬盘和2个PCI-X设备扩展,极大的提高了1U机架式服务器的扩展能力,使整套系统具备了较好的系统扩展性。同时,曙光天阔R210A具备良好的SUMA特性,使系统能够稳定的运行在多种系统中,能适应用户在多种应用下的计算资源需求。此外,系统内部设计采用能耗较低的搭配设置,将系统峰值能耗限制在20Kw以下,实际能耗不超过13Kw,大大的降低了系统功耗,并增强了系统环保指数。

     在山东科技大学资源与环境工程学院日渐增多的资料和数据中,原有矿洞的资料数已从单个数值扩大到了整个矿区的资料。这就要求系统必须具备足够的存储能力。采用曙光磁盘阵列后的存储系统,可以构建出海量的存储限度,最大程度的保护了用户的数据储备。

任何时间任何地点 无限监控

简单、灵活的曙光TC4000L双核机群监控系统

     鉴于山东科技大学资源与环境工程学院对系统管理性的较高要求,方案采用了曙光机群管理系统解决方案,其中包括曙光SKVMOver IP解决方案、机群监控系统解决方案以及曙光DCOS机群操作系统解决方案。整个方案为用户提供了从本地到远程(跨Internet网)的完整的解决方案,曙光的这些解决方案都是业界具有远远领先地位的。

  SKVM管理是曙光独具特色的SKVM解决方案,利用它可以实现对系统所有节点的KVM切换管理,能够从整体上提升机群的使用性能水准,而且能够很大程度上满足用户实际需求,提高用户在信息网络系统的可管理性、高可用性,符合曙光一贯倡导的SUMA标准。硬件监控系统包括曙光机群 监控卡、I2C监控网络、监控主机和监控软件,实现了“任何时间、任何地点可以监控任何信息”。

  山东科技大学资源与环境工程学院希望在系统中植入完善的管理软件,能让研究人员可以轻松的对系统进行管理。在此系统中,曙光加入了其特有的机群管理系统DCMS,DCMS拥有结构化、配置化的设计界面,学院管理员能够定制不同功能来实现管理权限的控制。采用了XMS-RPC的通讯方式,满足标准化、安全性和跨平台通讯的各项要求,也满足面向对象程序设计的要求。监控软件DCMM也在山东科技大学资源与环境工程学院系统中得到了应用,曙光监控网实现对整个系统工作环境、各节点CPU和内存的使用率、网络流量等硬件状态和系统资源使用情况进行监控,使学院管理员对各节点的情况一目了然。

  此外,曙光机群映象管理软件—DCIS、机群统一终端系统—MTER、作业管理和调度系统OpenPBS也在山东科技大学资源与环境工程学院系统中得到了应用,使管理工作更加轻松自如。

培训、服务的全面和细致

      在硬件系统和软件系统搭建完毕以后,山东科技大学资源与环境工程学院的系统建设也算是基本完成,曙光的服务器产品完满的完成了任务。同时曙光的工作也得到了学院领导的赞许。曙光为学院提供了全面细致的培训计划,提供了26个学时以上的完整的高性能计算机系统培训,旨在帮助资源与环境工程学院培养出合格的管理人员、出色的使用人员、精通高性能计算机的科研人员。

  在服务方面,曙光为资源与环境工程学院提供了5年的免费售后服务,5年免费上门服务。曙光本地化的服务在实施能力、周期和后期维护费用等方面具有极强的优势,保证了学员在综合成本上保持最低,大量的专业化技术人才,为学院提供免费的应用支持服务。这些服务措施帮助资源与环境工程学院更好地实现其高性能计算平台的价值,更好地提高系统利用率,提升科研水平。今年曙光实行“服务超越”的战略为用户提供更全面的服务,其中5年原厂商的免费服务,也意味着是终身免费服务,是服务质量的可靠保证,同时用户的整体成本更透明更可控,使用户真正体验到曙光带来的放心、舒心。

  山东科技大学资源与环境工程学院高性能机群项目是一项意义重大的工程,对矿业工程和岩土工程的发展有着深远的影响。曙光采用双核服务器产品为学院搭建的系统,完全满足了用户对高性能计算的追求,也为数值仿真技术的发展扫清了障碍。对此学院领导也给予了很高的评价:“曙光双核产品为我们建立了高速平台,确实满足了我们对高性能计算的需求,使数值仿真的分析更加容易,对我们的课题研究提供了很大的帮助。”

0
相关文章