服务器 频道

华大基因运用NVIDIA加速器破解生命密码

  2012年6月18日,在德国汉堡举行的2012年国际超级计算大会上,IDC宣布了第三届“高性能计算创新优秀奖”的获奖名单,华大基因继2011年获得该奖后此次再度名列其中。对于华大基因而言,生物信息分析的使命就在于挖掘人类基因组和其他物种基因组测序所得的海量数据背后所隐藏的科学意义及应用价值。而在华大基因飞速成长的过程中,借助NVIDIA GPU加速技术也使得研究工作事半功倍。本次我们很荣幸的邀请到华大基因高性能中心负责人王丙强博士,请他谈谈NVIDIA加速技术对于华大基因研究工作的帮助。

GPU加速技术成为华大基因制胜关键
华大基因高性能中心负责人王丙强博士
 

  王丙强博士首先通过一组数字证明了GPU加速对于基因组研究的促进作用。他表示——同样的基因研究,在GPU加速出现以前,单纯依靠CPU计算需要大约1619天的时间,数据的获取非常艰难。除了漫长的等待时间之外,实验的成本也非常高,需要大量的人力、物力和财力的投入。

GPU加速技术成为华大基因制胜关键

  而在GPU加速出现之后,进行同样的项目时间大大缩短,仅采用单一GPU加速的时间缩短了16倍,仅用101天即可完成;如果采用GPU集群的模式,最快可以在5.4小时完成工作,效率提升446倍。正是由于GPU加速的出现,使得生物基因的研究取得了突飞猛进的发展,也才能让华大基因这样以科研为基础、以市场为导向的公司迅速成长。

GPU加速技术成为华大基因制胜关键
华大基因生物实验室

  谈到与NVIDIA公司的合作,王丙强博士介绍说:华大基因在2010年正式开始与NVIDIA的合作,也从那时起开始在自己的数据中心中采用GPU加速技术。他表示,NVIDIA在此期间提供了大量的技术支持和指导,因为华大基因原有的高性能计算中心成员并没有CUDA编程的实际经验,最初的时候还是以少量的、小份额的项目作为尝试,将原有的CPU代码经过简单的编辑转换为GPU能够识别的代码,进而进行运算。如今,华大基因已经有了多家自己的数据中心,都是基于GPU运算所产生。

  现在,GPU计算已经成为了华大基因生物研究的主要手段,在基因组的测序、比对等阶段都需要用到GPU加速技术。根据国际人类基因组计划提供的参照样本,所有的测试基因都要与样本进行比对,再将对比出的差异进行系统分析。这是一个庞大而复杂的工程,也正是GPU计算的优势所在。而在使用过程中,简单的对比项目可以实现10-20倍的性能加速,在差异化对比的时候GPU加速的倍数可以达到70甚至100倍以上,大大降低了人工成本。

GPU加速技术成为华大基因制胜关键

  针对目前行业中流行的大数据概念,王丙强博士也有自己的看法。目前华大基因每天所产生的数据量非常庞大,近百台测试机每天大约产生10TB的数据,如何处理庞大的数据并且保证其安全性呢?王丙强博士谈到——目前华大基因已经与天河一号A开展合作,大部分时效性强或者计算量大的项目都委托天河一号A完成,大约每个月都会有大量存储着数据的硬盘从深圳空运到天津超算中心。而随着基因组学的快速发展,其产生的海量数据对存储、计算机性能等方面以每12-18个月10倍的速度在增长,并已远超越著名的摩尔定律。为了解决这一难题,华大基因信息生产中心正不断地在高性能计算领域内开发可以解决海量数据方面的硬件。 

  除了采用GPU加速之外,华大基因也在有步骤的研发独立的、适合生物行业使用的GPU加速软件。在这个过程中NVIDIA提供了非常大的技术支持和培训,包括目前华大基因高性能计算部门的员工都参与过这样的培训内容,这也使得员工的GPU应用水平有了明显的提升。如果遇到特殊困难,NVIDIA还可以指派专门的工程师进行软件的代码优化,这也使得华大基因的GPU加速应用发展得更快更稳健。

GPU加速技术成为华大基因制胜关键

  据悉,华大基因每年还会举办多次生物信息学培训班,让科研人员熟练地掌握生物信息分析软件的使用方法及如何更加科学有效地分析、挖掘这些生物信息数据资源。未来,华大基因将秉承GPU加速的路线,将高性能计算带来的领先优势转化为生产力。华大基因研究院副院长方林表示:“HPC在科学发展上拥有巨大的潜在应用价值,它能够促进大规模基因组数据的处理,使得组学相关的研究更快速、更容易。我们希望在日后的研究中进一步加强HPC的应用,以更好的满足处理和分析‘大基因组数据’的需求。”

1
相关文章