【IT168 资讯】人类几千年的文明史,就是一部探索史。从有了思维意识的那一刻开始,人类就丝毫没有停止过对于自我与外界的探索。从哲学的角度来说,人类探索的问题是:我是谁?我从哪里来?我要到哪里去;从航天的角度来说,这个问题就是地球、宇宙、星系的奥秘;从生物学的角度来说,这个问题变成了——结构、功能、遗传和变异……近日,笔者有幸采访华大基因,这是一家以研究生物基因组为主要方向的公司,也是国际知名的高科技企业。
华大基因自1999年成立以来,先后完成了国际人类基因组计划"中国部分"(1%,承担其中绝大部分工作)、国际人类单体型图计划(10%)、水稻基因组计划、家蚕基因组计划、家鸡基因组计划、抗SARS研究、"炎黄一号"(100%)、大熊猫等多项具有国际先进水平的基因组科研工作,在Nature和Science等国际一流的学术杂志上发表多篇论文,奠定了中国基因组科学在国际上的领先地位。同时,建立了大规模测序、生物信息、克隆、健康、农业基因组等技术平台,其测序能力及生物信息分析能力世界领先。
华大基因展示的杂交石斑鱼,其生长速度和体重是普通石斑鱼的2-3倍,而且口感更好
杂交轻木,3岁半树龄直径可达1尺以上,重量与同体积的泡沫相当,而且隔音效果良好
在华大基因的展示区,我们看到了众多采用高科技杂交技术的产品,比如杂交石斑鱼和杂交轻木。相比传统的杂交手段,华大基因通过高科技技术,采用高性能计算机对生物DNA进行计算和重组,从而大大降低了传统杂交中的反复试验等过程,大大节约了时间和人力,能够快速实现生产化。
一组数字或许能够更快速的帮助大家理解高性能计算对于华大基因研究的推动作用。以前完成一组数据研究需要几年的时间,而且投入巨大的财力和物力,如今只要几个小时便可以完成300亿个纳米球的测序。其实从上如我们就可以看到,从2000年到如今短短13年的时间,正是高性能计算突飞猛进的发展使得生物基因的研究工作获得了日新月异的变化。如今,高性能计算已经达到了千万亿次,大大加速了研究效率。
另一张图则是目前华大基因的高性能计算中心发展情况。如今,华大基因包括香港、深圳、北京等多家数据中心,其中深圳中心的面积最大,可以实现最高117T flops浮点运算。除此之外,华大基因还与天津超算中心展开合作,运用目前国内最快的超级计算机天河一号A进行数据运算工作,而天河一号A所采用正是NVIDIA推出的Tesla系列加速器。
得益于高性能计算的发展,华大基因除了进行科学研究之外,也面向社会服务,上图我们看到的就是华大基因与国内多家医院联合推出的无创产前基因检测。这项检测主要用于胎儿唐氏综合症的筛查,笔者曾经有位同事进行过这样的检测,只需要抽取母体5毫升血液就可化验,相比传统的羊水穿刺方法来说对于孕妇的损伤更小,降低了流产率。
华大基因相关负责人介绍说,这是目前最新的基因检测,可以实现全天24小时全自动操作,无需人工干预。之前,国际人类基因组曾耗时13年的时间去测一个人的基因组,计划投资为30亿美金;而如今采用先进的技术和设备,一天就可以完成一个基因组的检测。
如今,凭借着高科技的优势和影响力,华大基因已形成科学、技术、产业相互促进的发展模式,建成一支具有世界优秀水平的产学研队伍,开展一系列的重要动植物、人类健康、生物能源等基因组的研究,致力于人类健康服务事业和科技应用领域的发展。
2012年6月18日,在德国汉堡举行的2012年国际超级计算大会上,IDC宣布了第三届“高性能计算创新优秀奖”的获奖名单,华大基因继2011年获得该奖后此次再度名列其中。对于华大基因而言,生物信息分析的使命就在于挖掘人类基因组和其他物种基因组测序所得的海量数据背后所隐藏的科学意义及应用价值。而在华大基因飞速成长的过程中,借助NVIDIA GPU加速技术也使得研究工作事半功倍。本次我们很荣幸的邀请到华大基因高性能中心负责人王丙强博士,请他谈谈NVIDIA加速技术对于华大基因研究工作的帮助。
王丙强博士首先通过一组数字证明了GPU加速对于基因组研究的促进作用。他表示——同样的基因研究,在GPU加速出现以前,单纯依靠CPU计算需要大约1619天的时间,数据的获取非常艰难。除了漫长的等待时间之外,实验的成本也非常高,需要大量的人力、物力和财力的投入。
而在GPU加速出现之后,进行同样的项目时间大大缩短,仅采用单一GPU加速的时间缩短了16倍,仅用101天即可完成;如果采用GPU集群的模式,最快可以在5.4小时完成工作,效率提升446倍。正是由于GPU加速的出现,使得生物基因的研究取得了突飞猛进的发展,也才能让华大基因这样以科研为基础、以市场为导向的公司迅速成长。
谈到与NVIDIA公司的合作,王丙强博士介绍说:华大基因在2010年正式开始与NVIDIA的合作,也从那时起开始在自己的数据中心中采用GPU加速技术。他表示,NVIDIA在此期间提供了大量的技术支持和指导,因为华大基因原有的高性能计算中心成员并没有CUDA编程的实际经验,最初的时候还是以少量的、小份额的项目作为尝试,将原有的CPU代码经过简单的编辑转换为GPU能够识别的代码,进而进行运算。如今,华大基因已经有了多家自己的数据中心,都是基于GPU运算所产生。
现在,GPU计算已经成为了华大基因生物研究的主要手段,在基因组的测序、比对等阶段都需要用到GPU加速技术。根据国际人类基因组计划提供的参照样本,所有的测试基因都要与样本进行比对,再将对比出的差异进行系统分析。这是一个庞大而复杂的工程,也正是GPU计算的优势所在。而在使用过程中,简单的对比项目可以实现10-20倍的性能加速,在差异化对比的时候GPU加速的倍数可以达到70甚至100倍以上,大大降低了人工成本。
针对目前行业中流行的大数据概念,王丙强博士也有自己的看法。目前华大基因每天所产生的数据量非常庞大,近百台测试机每天大约产生10TB的数据,如何处理庞大的数据并且保证其安全性呢?王丙强博士谈到——目前华大基因已经与天河一号A开展合作,大部分时效性强或者计算量大的项目都委托天河一号A完成,大约每个月都会有大量存储着数据的硬盘从深圳空运到天津超算中心。而随着基因组学的快速发展,其产生的海量数据对存储、计算机性能等方面以每12-18个月10倍的速度在增长,并已远超越著名的摩尔定律。为了解决这一难题,华大基因信息生产中心正不断地在高性能计算领域内开发可以解决海量数据方面的硬件。
除了采用GPU加速之外,华大基因也在有步骤的研发独立的、适合生物行业使用的GPU加速软件。在这个过程中NVIDIA提供了非常大的技术支持和培训,包括目前华大基因高性能计算部门的员工都参与过这样的培训内容,这也使得员工的GPU应用水平有了明显的提升。如果遇到特殊困难,NVIDIA还可以指派专门的工程师进行软件的代码优化,这也使得华大基因的GPU加速应用发展得更快更稳健。
据悉,华大基因每年还会举办多次生物信息学培训班,让科研人员熟练地掌握生物信息分析软件的使用方法及如何更加科学有效地分析、挖掘这些生物信息数据资源。未来,华大基因将秉承GPU加速的路线,将高性能计算带来的领先优势转化为生产力。华大基因研究院副院长方林表示:“HPC在科学发展上拥有巨大的潜在应用价值,它能够促进大规模基因组数据的处理,使得组学相关的研究更快速、更容易。我们希望在日后的研究中进一步加强HPC的应用,以更好的满足处理和分析‘大基因组数据’的需求。”