挑战3:面对海量数据 存、管如何两不误?
对生命科学计算而言,数据存储是关键,但不仅要满足海量数据的存取,还要方便对数据进行高效管理。生命科学研究所涉及的数据量极为庞大。以大熊猫为例,大熊猫共有21对染色体,基因组大小与人类相似约为30亿个碱基对,包含2-3万个基因。如果将大熊猫基因组序列写成一本书,其厚度相当于384米高的大厦。同时,基因数据库容量以每6-8月翻一番的速度增长,这一增长速度甚至超过了计算机运算能力的增长。
对此,浪潮的建议是,推荐用户采用三级分层存储的方式,即一级的高速SAS或FC在线存储系统,二级的大容量SATA近线存储,这两级都采用集群存储方式,分别满足性能和容量的需求,三级的虚拟带库备份系统,避免数据丢失。
挑战4:系统规模大、作业任务多,如何智能管理?
由于集群系统规模较大,加上软件众多,需要对系统、作业提供柔性、智能化的管理工具。胡松年谈到,现在北京基因组研究所的客户端数量很多,往往有几百个任务的并行请求,为避免塞车,需要对作业任务的优先级进行科学管理。
刘军谈到,在集群管理和作业调度软件上,浪潮开发了TSMM2.0监控管理软件,可以实现系统管理、监控、报警等一系列智能化的功能,同时作业管理软件也已经成为大型高性能计算的重要组成部分,能够实现多用户、多作业的管理,包括资源管理、系统管理、作业管理、策略管理、记帐管理、应用软件管理等。
挑战5:软件、人才滞后 系统应用如何优化?
由于在算法、算例、编译等方面的开发力量不足,加上缺乏既懂生命科学,又懂计算机的“双栖”人才,导致在生命科学领域,国内很大一部分应用使用的都是国外的软件,而且应用效率低下,科研进度缓慢。为了提高软件算法的效率,真正帮助用户用好HPC,往往需要厂商和用户单位联合进行应用开发,需要IT厂商的高性能计算工程师和生物专家进行长期、紧密的搭挡合作。
比如中科院北京基因组研究所的BLAST软件原来已经无法承担数据高速增长带来的挑战,测序结果往往要两个星期才能出来,难以满足科研项目的要求。为此,浪潮和用户联手进行了向GPU+CPU混合并行计算平台的移植方案,经过两个月时间完成了核心算法加速,结果比传统CPU集群快上了30倍。
刘军表示,虽然GPU并行计算目前还处于发展初期,软件编程比较麻烦,但其性能上几十倍、上百倍的提升对一些用户来说却是非常有吸引力的。而且,目前除了许多高校科研用户开始试用GPU计算之外,一些商业软件也开始对GPU进行优化,主要集中在军工、互联网、图像处理等领域。
在性能调优方面,英特尔高性能计算高级工程师乔楠认为,根据投入产业比的规则,要按“系统级最先、应用级次之、微架构最后”的顺序进行。在系统级,可以对CPU、内存、IO、网络等硬件进行优化,比如至强5500有三大法宝:NUMA、SMT、Turbo,对VASP应用来说,NUMA开关一定要打开,Turbo打开也能提升性能,但SMT超线程必须关闭,打开反而会降低性能;在某些情况下,解决了网络IO问题,总体性能可能会有上百倍的提升;在应用级,比如解决了多线程死锁/同步问题,可能也会有十几倍的性能升;只有在进行了系统级和应用级调优之后,最后才建议考虑进行微架构的调优,通过使用英特尔的编译器、Vtune、数学库优化工具,一般可以实现几倍的性能提升。而且,系统规模越大,系统级和应用级优化的性能提升效果会比微架构更明显。