服务器 频道

HPC助力大数据与医学大数据时代

  【IT168 资讯】9月26日,2014高性能计算用户大会在京举行,近千位国内外高性能计算研究与应用专家和用户代表到会。大会提出“HPC PLUS”理念,认为高性能计算正在联结世界、改变生活,并展示了高性能计算在全球最大射电望远镜阵列SKA项目、政府间气候变化委员会IPCC-AR5、天河二号超大规模应用等科学工程中的最新进展,分享了深度学习、个体医疗以及脑科学等全球热点技术领域的高性能计算应用趋势。


▲中科院北京基因组研究所教授“人类基因组计划”中国负责人于军教授

  以下是中科院北京基因组研究所教授“人类基因组计划”中国负责人于军教授的演讲全文:

  于军:首先感谢大会的主办方给我跟大家探讨发展的机会,我这个题目和大家稍微有点不同,题目叫做大数据与医学大数据时代的来临,所谓的大数据,起源于人类基因组计划,我们花了将近十年的时间做准备,又花了十年的准备把这个做起来,十年以后的今天我们现在探讨的不是一个人的基因,是十万个,甚至是上百个人的基因。

  未来生物医学之大数据是非常复杂,有们讲个体化或者叫个体化,我认为是不准确的,我们应该把它叫做精准医学,3年前2011年的时候XX主持编写了一个报告,这个报告叫做走向基因组医学,这个报告里面准确定论了什么叫做基因组医学,因为基因组医学是非常贴切描绘了大数据,因为我们在判断的时候,要根据数据来实现。精准医学的两个基础,一个是精准的生活,大家知道现在利用很多的手段的不远的将来,每一分钟都可能在互联网里面记录每一分钟的行为,同时我们健康要求非常的精准的,时间的把握要通过大数据,在大数据的发展给下我们界定每个人应该做的事情。

  在报告里面有一个老师他是主要的作者之一,在报告的3过年前也写了另外一个报告,报告就是体现了人类的计划,在1987年的时候,只有他一个人参与了报告的写作,在最近这个报告里边,他主要是描述了我们精准医学的内涵,内涵最关键就是中间这部分,中间叫做XX网络,上边部分就是我们讨论的高性能计算也好,云计算也好,有一个东西,这个东西是我们今天讨论的主题,装着我们所有的信息在里边。所有信息在里边,有层次的,这些层次之间是有关联的,所以这种关联它的复杂性就是我们要得到的,得到这些干什么?下边叫做把医学重新分类,我们在一个信息和它的分析最终要实现目前的医学,基本的概念,基本的关联,一定要层层分类,分类以后再回到两个回环,一个是临床的实践,另外就是科学的研究,这两个回环得到的信息,重新进入到这个里面,这样我们医学未来就从这里起步。

  这里面最重要的东西,我们高性能计算和云计算这些平台在不同层次上边,我们不能够简单用一个等号来算,或者简单的多元一次方程来算,他们之间可以进行转换,转换是需要我们来实现的,显然需要各种各样平台的参与。我们生命最关键的部分是时间,我们看到都是一个断层,因为能够能力在时间轴上记录下来,现在的研究,基本上从时间轴出发,必须把数据放在时间轴上面才能考察,我们面临季节的周期,生殖的周期,生命的节律,细胞周期,都是以时间为衡量标准,时间是给我们最重要的一个参数。除了时间以外,按照过去学科的分类重新分类,以前有解剖学,但是最近50年来,我们有一个新的学科,叫做分子生物学,能够从表面看见的东西走向了分子,分子我们看不见,只有通过间接的手段研究他们,比方蛋白质的网络,我们怎么把这些东西整合在一起,比方很简单,我们讲猪,把它的生殖怎么来体现,比方我希望它每一胎下十个崽,我们怎么实现它,我们必须要把各个层次的信息整合在一起,就是我们基因组生物学要考虑的问题,计算机帮助我们来记录这些符号,信息留是遗传学与变演论,在里个体之间的差别。操作流是蛋白质和蛋白质相互的作用,还有可塑流,科学家正在制作果云的研究,最后做到人的,我们必须要把相关之间作用,既包括能源的问题,也包括了传达的问题,所以生命科学的未来是在于这些数据有机的整合。

  我们要实现这个问题,简单举几个例子,第一个是复杂疾病,我们面临疾病最可怕的是复杂疾病,比方癌症,是非常可怕的事情,几乎我们每天都面临这个问题,我们的岳父昨天诊断得了癌症,所以每天遇到这个问题,我们怎么来解决这个问题,本身是个复杂的问题,我们要把复杂的问题分解到不同层次,这在方法学上,要把数据分成层次,把数据整合起来。过去在研究人的多样性,人的遗传变异,跟遗传相关的疾病现象的时候,把它关联到血液上的变化,就是信息流,现在要把基因之间相互作用也把它考虑进来,这个就不是简单的信息流的问题,从此以外有中医学,西方医学关联的问题,一起来思考,或者放到一起解决问题的方法,这是我们未来面临的问题。

  第二个是细胞异质化的问题,甚至认为每个细菌都是一样的,当我们一个一个细菌跟踪的时候,发现原来细菌看起来一样,但实际上不一样,我们有这么多的抗菌素,不能够把细菌消灭,细菌非常聪明,当我们发现它的时候,大概占总数万分之一,就会停止生长,整个环境变化以后再生长,我们没有能力观察这个,也没有能力记录这个东西,现在我们走向关键的,比方癌症,是最重要的命题。过去我们认为癌症是某一个部位的细胞变化以后发生某种行为,在细胞我们把它一个一个挑出来,这是细胞本身的复杂性,所以这样一个复杂性,我们面对物体命题的复杂性,要求我们必须要把我们的思维要复杂化,因为我们有这么好的工具,能够储存信息。

  这是一个简单的实验,我们可以通过一个实验,通过基因的表达,来界定癌症的存在,我们可以看到,根据几个基因的变化,就能确定这个细胞是癌细胞,治疗效果是远远不够,要看上万个细胞的表达,看这个癌症是怎么治疗。有的时候我们得到的信息,不能够改变它的应用。

  第三个关键词是单分子,大家知道个体化,我们有自己的DNA,我们DNA是有染色体,46个分子,上边所有的基因,所有的信息的元素,我们都要界定,在单分子的水平上我们能够看到什么?其实可以看出单个分子的行为,过去我们没办法把这个东西整合起来,现在我们就能够实现单分子水平的数据的获取和分析,单分子的水平上我们会把人类作为整体的原因,因为人类有13次方的细胞,如果模拟这样一个东西,所有的细胞都在里边,就要求我们做超级计算,10的13次方,所以现在基本在单细胞的水平上研究。过去我们很多方法,70年代发明非常多方法,现在这些技术已经完全淘汰了,现在看一个分子在生物中当中的行为,所以第三个关键词就是单分子,我们看精准医学在一系列的符号里面,通过计算,通过公式,通过整合来实现,从数据里边看到我们想要的东西,因为任何一个数据,任何一个符号我们某眼是看不见,没法模拟,我们人类的大脑尽管有很高的,但远远没有计算机的能力。所以我们未来不仅仅是有很多科学命题等待着我们,有很多大的数据等待着我们,有很多挑战等待着我们,怎么利用这些正在发展的平台,来实现各个学科研究的目标,显然是一个非常重要的事情。我就讲这么多,主要介绍大数据和它的现在和未来,谢谢大家!

1
相关文章