浪潮集团高性能事业部总经理刘军谈到,生命科学计算独特的应用需求决定了,在该领域用户在进行高性能计算集群方案选型与测试、系统扩展、海量数据存储管理、大规模系统和作业管理、应用优化等方面面临诸多挑战。
挑战1:应用繁杂多样 哪种系统最适用?
由于软件众多,应用不一,因此需要根据用户主流应用软件的特征进行量身定制高性能计算系统架构和配置,而不是简单地采用通用的集群系统。中科院北京基因组研究所胡松年博士谈到,选择高性能计算机其实比选基因测序仪要复杂得多。北京基因组研究所每月单纯的数据产量会超过1TB,目前还无法保存图像文件,海量数据存储一直是难题,而且是软件多达100多种,加上很多用户自编的程序,对存储、IO、内存、并行化等方面都有不同的要求。
据英特尔中国公司高性能计算工程师乔楠介绍,为了帮助高性能计算用户方案选型,英特尔和浪潮一起花了大半年时间进行典型应用的性能特征分析,对包括BLAST、VASP、Gaussian 03、CPMD、Amber 10、Gromacs 4.0、Wien2k、Espresso等十几种软件,从影响节点内扩展性的“每核内存使用率和带宽”、影响节点间扩展性的磁盘IO和网络消息传递,影响软件优化潜力空间的CPU向量化、CPI等指标进行测试比较,以此来了解不同应用的关键特性。然后分析CPU、内存、磁盘、网络等硬件本身的特性,如在每核内存带宽上限方面,至强5400是1GB/s、至强5500则是4.5GB/s。再通过对软件应用特性和硬件特性进行对比,基本能确定适用的配置标准。比如BLAST软件对系统的IO要求很高,需要大内存,而Gromacs则MPI通信频繁,浮点运算量也大,但对内存的要求较小,又如基因拼接往往需要大内存的胖节点等等。
胡松年表示,基因组测序的复杂计算即便中科院超算中心、上海超算中心以及IBM、HP等国内的工程师都没有相关的经验,浪潮的前期扎实的测试为方案选型提供了很好的帮助。
挑战2:数据爆炸增长 系统未来如何扩展?
虽然目前我国在生物信息学研究、DNA测序能力方面已处于世界前列,但与国际上相比,对基因组数据的分析处理和利用能力,包括计算能力则存在较大差距。目前,国外分析生命科学的海量数据普遍会使用数百万亿次规模的超级计算机,而我国的许多科研机构的高性能计算规模一般为几万亿次。同时,为了满足未来数据量的爆炸增长,及随之而来的大规模处理能力和存储容量,要求系统有较高的可扩展性。
胡松年也谈到,现在基因组研究所10万亿次的计算机规模还远远不够,因为做一对染色体的基因测序,就需要十几天时间,会大大影响科研项目的进展。在存储方面,目前还只能保存测序文件,无法保证更大的图像文件。除了未来对现在系统进一步扩容之外,研究所也在尝试其他各种办法,比如,在浪潮的帮助下,将BLAST计算迁移至GPU平台上去;进行软件算法的优化,提高现有资源的利用率;加入中科院超级计算网格环境,从中科院超算中心租用计算存储资源,但又面临性能不够、作业协调管理、系统不匹配、TB级大数据量网络传输可靠性无法保证等现实难题;另外也关注云计算、网格等,但这些虚拟、远程计算在网络传输、资源管理、平台适应性方面也同样困难重重。
刘军则分析了存储文件系统的选择。一种是简单易用、稳定可靠的NFS,但却在多用户集群环境下性能会下降,而且无法实现存储共享,OPS也较低,在使用IPoverIB时会损失较大性能;另一种则是IO带宽很高的并行文件系统,却面临商用软件价格高昂,开源软件可靠性没保证的尴尬。很多用户往往不得已而使用前者。为此,浪潮推荐用户使用万兆集群存储系统,可以将管理便利性与高性能结合起来,方便未来系统的扩展。