服务器 频道

高性能计算系统性能优化 打破存储瓶颈

  【IT168 评论】在日前举办的2011年英特尔高性能计算研讨会上,中国石油东方地球物理公司研究院处理中心总工程师赖能和介绍了东方公司高性能计算系统的应用情况,他指出,存储子系统的优化对于提高高性能计算系统CPU资源利用率非常关键。

  随着石油勘探的难度越来越大,需要处理的数据越来越多,高性能计算系统的规模也在不断扩容。据赖能和介绍,由于今年公司使用了逆时偏移的新软件,同时要全面推广国产的GeoEast软件,因此计算规模的增长很快,仅2011年就总共添加了2498颗CPU,其中95%是英特尔的芯片。“2011年,东方公司的总处理能力已经达到5.8万个CPU核,计算能力为528万亿次每秒,存储容量为8000TB。但其实我们的计算能力还远远不够,现在主要受到的限制是电力条件。”

高性能计算系统性能优化 打破存储瓶颈

  如何把这么大规模的机器用好,一直是赖能和所关心的重要课题。经过10年PC集群大规模生产应用实践证明,庞大的软硬件资源为东方公司创造了可观的经济效益和市场效益,但在实际应用中随着规模变大,也出现了一些新的问题。近年来,东方公司处理中心先后投入了上千万元来做技术改造,集中解决三个方面的问题:CPU利用率不高、存储性能与数据安全、高能耗与高制冷。

  今天CPU的性能已经非常强劲,但利用率偏低,一个很重要的原因就是I/O、存储存在瓶颈。另外,近几年来,地震处理领域的数据又处于爆炸性增长,存储是IT设备领域增长最快的部分,导致计算与I/O、存储之间的矛盾越来越大。赖能和介绍说,根据测试,影响CPU利用率的因素有很多,其中存储性能的影响很大,比如,在高性能计算系统集成过程中,每个机柜配多少个I/O节点?采用什么样的数据交换机和数据存储结构?每个节点采用多大的内存?......这些都会影响到系统的整体性能。因此,选择好的存储系统和网络技术,研究探讨PC集群与存储、网络系统的连接模式、集成方案、寻求CPU与存储及网络负载之间的均衡、解决I/O瓶颈问题,都是关系到集群能否真正发挥其高速芯片优势的至关重要环节。

  在此次研讨会上,针对通达存储系统优化来提高高性能计算系统性能的问题,赖能和从五个方面进行了经验分享:

  一、针对不同的应用,合理选择存储

  具体到地震资料处理领域来看,常规处理和叠前偏移处理是两种不同的应用,前者在系统中有几十到上百个用户,数据I/O很频繁,文件多但单数据文件相对较小,后者正好相反,同时访问的用户数量少,尽管内部I/O频繁,但外部I/O不频繁,文件单一,但相对较大,从50GB到3TB不等。因此,针对这些拥有不同特征的应用,应该合理选择有针对性的存储产品。

  二、不同的存储架构,性能差别很大

  比如,比较GeoCluster软件在SAN、SCSI和FC-SATA三种类别存储的应用,发现在多作业同时运行环境下,比如当作业数达到10个,SAN架构的应用效果就非常明显,I/O能力比其他存储架构会提升2倍。另外,通过使用SSD固态存储和并行文件系统,也会提高CPU的使用率。

  三、不同存储品牌,性能差别大

  赖能和指出,业界在招标过程中普遍采用最低价者中标的模式,其实这是很不合理的,因为不同品牌的存储,性能可能差别很大。

  四、存储网络对存储性能影响大

  根据内部测试发现,万兆接口的盘阵性能是双千兆光纤盘阵的5.5倍,而多千兆光纤口也不能达到线性增加速度。赖能和认为,万兆以太网是一种很不错的技术,比如,四条千兆绑定的链接与一条万兆网络相比,万兆的读写性能可提高近3倍。

  五、优化配置存储的关键参数

  比如,磁盘阵列的RAID技术为提高磁盘的吞吐量提供了很好的途径。但RAID级别从0到6,每一种都有自己的优缺点。测试发现,8块盘做RAID5,其性能比16块盘做RAID要差很多,尽管有些厂商推荐用户使用7-8块盘来做RAID。

0
相关文章