服务器 频道

赖能和:HPC数据中心的优化管理及挑战

  【IT168 资讯】一年一度的英特尔高性能计算研讨会第六届会议于7月5日至7月8日在南京举行。自2007年首届至今,英特尔(中国)已经成功举办了五届英特尔高性能计算研讨会。该研讨会不仅已经成为英特尔的一项传统会议,而且在中国能源领域成为高性能计算需求和发展的风向标。会上中国石油东方地球物理公司研究院处理中心总工程师赖能和先生重点谈到了大规模数据中心的优化、管理及面临的挑战等问题。

赖能和:HPC数据中心的优化管理及挑战
国石油东方地球物理公司研究院处理中心总工程师赖能和

  在报告之初,赖能和先生首先介绍了中国石油东方地球物理公司研究院处理中心的基本情况。他谈到,最近一年以来东方地球物理公司研究院的变化非常大,目前数据中心中共有处理器23000多个,核心数量达到了75000个以上,理论峰值为695千万亿次。而就处理中心的的情况来说,拥有GPU数量为936个,约为45万个核心,可以实现576千万亿次。除此之外,还处理中心拥有双路、四路、八路等多种服务器。面对如此众多的设备,如何管理是摆在眼前的一个难题。对此,赖能和先生提出了以下几个方向的解决方案。

赖能和:HPC数据中心的优化管理及挑战
国石油东方地球物理公司研究院处理中心硬件资源情况

  首先是内存容量的管理。如果想发挥系统的最大性能,大容量内存是必不可少的。赖能和先生举了一个实际的例子:同样规模的计算容量,使用16GB内存(单台)要比使用8GB内存在速度上有几何倍数的提升,而并非是单纯的翻一番。同时,面对当前一窝蜂采用高性能计算的现状,赖先生也表示——并非是投入的设备越高越好,因为性能的提升并不是按照系统数量的提升直线增长,而是抛物线的形式,因此具体的情况还需要进行相比的评估。

赖能和:HPC数据中心的优化管理及挑战
存储系统对于高性能计算的影响

  在去年的高性能计算大会上,赖能和先生谈到了存储系统作为性能瓶颈的因素,而如今他更是强调了存储系统的重要性,通过亲身实践认为NAS存储从应用的角度来说更合适,他甚至表示NAS存储将是未来高性能计算的主力存储设备,同时辅助以直连盘,进行合理搭配。有了强大的存储设备,最新Romely平台所使用的万兆以太网也引起了赖先生浓厚的兴趣,如果能将万兆网卡、万兆存储及控制器等部件有效结合,协同工作,将产生事半功倍的效果。

  最后,赖先生还对软件应用模型与数据备份、安全监控等内容提出了自己的设想。总而言之,搭建一个完善高效的高性能计算中心不仅仅是简单的硬件堆叠,而需要多方面的协调工作,平衡发展。

  在谈到当下热门的CPU+GPU模式时,赖能和先生也发表了自己的看法。他谈到——目前这种趋势的整体发展是好的,而且硬件水平也在不断提升,但是如何能够协调处理器、GPU之间的采购成本和能耗依然是许多工作者必须面对的问题。一窝蜂采用CPU+GPU的模式并不可取,甚至可能会适得其反。而谈到英特尔最新发布的至强E5-2600系列处理器,赖先生表示——在实际应用中至强E5-2600系列表现出了强大的性能,经过测试相比上一代的产品提供了5-8倍的性能提升。无论是国产还是国际软件,经过优化之后都可以完美的运行在至强E5平台中。而对于NVIDIA最新的开普勒架构产品,赖先生更期待年底的新品发布。

赖能和:HPC数据中心的优化管理及挑战
赖能和:HPC数据中心的优化管理及挑战
应对大数据挑战

  事实上,如今大数据对于HPC的挑战也非常严峻。赖能和先生介绍说——中国石油东方地球物理公司研究院处理中心计划投入2000万建设大数据研发处理系统,重点解决如何读取大数据、使用何种软件与架构两大关键性难题。如今该处理中心目前每天生成的数据容量约为5-7TB,数据越来越多,采集越来越困难,都成为了困扰工作人员的难题。未来,中国石油东方地球物理公司研究院处理中心也将加大研究力度,争取早日找到切实有效的办法。

0
相关文章