服务器 频道

孙功星:高能物理大数据存储处理及挖掘

  【IT168 现场报道】北京时间10月29日-31日,由中国计算机学会主办,中国软件行业协会数学软件分会协办,中国计算机学会高性能计算专业委员会、桂林电子科技大学共同承办的2013年全国高性能计算学术年会(HPC China2013)在广西桂林召开。

孙功星:高能物理大数据存储处理及挖掘
▲IT168专题地址:http://www.it168.com/redian/HPCC2013/

  本届盛会围绕着高性能计算技术的研究进展与发展趋势、高性能计算的重大应用等主题展开,促进信息化与工业化的深度融合,为相关领域的学者提供交流合作、发布最前沿科研成果的平台,推动中国高性能计算的发展。本次会议邀请了美国HPC Advisory Council的加盟,还邀请国内外知名超算中心主任参加,并举行“云计算”、“大科学工程中的高性能计算”论坛,会议期间还将召开“CO-DESIGN”研讨会。下面带来大会报告的是中国科学院高能物理研究所研究员孙功星,他演讲的题目是《从大数据到新发现-高能物理大数据存储、处理及挖掘》。

孙功星:高能物理大数据存储处理及挖掘
▲中国科学院高能物理研究所研究员 孙功星

  高能物理学(high energy physics)又称粒子物理学或基本粒子物理学,它是物理学的一个分支学科,研究比原子核更深层次的微观世界中物质的结构性质,和在很高的能量下,这些物质相互转化的现象,以及产生这些现象的原因和规律。它是一门基础学科,是当代物理学发展的前沿之一。粒子物理学是以实验为基础,而又基于实验和理论密切结合发展的。

孙功星:高能物理大数据存储处理及挖掘

  弱电相互作用统一理论日前取得的成功,特别是弱规范粒子的发现,加强了人们对定域规范场理论作为相互作用的基本理论的信念,也为今后以高能轻子作为探针探讨强子的内部结构、夸克及胶子的性质以及强作用的性质提供了可靠的分析手段。在今后一个时期,强相互作用将是粒子物理研究的一个重点。

  把电磁作用、弱作用和强作用统一起来的大统一理论,近年来引起相当大的注意。但即使在最简单的模型中,也包含近20个无量纲的参数。这表明这种理论还包含着大量的现象性的成分,只是一个十分初步的尝试。它还要走相当长的一段路,才能成为一个有效的理论。

孙功星:高能物理大数据存储处理及挖掘

  另外从发展趋势来看,粒子物理学的进展肯定会在宇宙演化的研究中起推进作用,这个方面的研究也将会是一个十分话跃的领域。

  很重要的是,物理学是一门以实验为基础的科学,粒子物理学也不例外。因此,新的粒子加速原理和新的探测手段的出观,将是意义深远的。

孙功星:高能物理大数据存储处理及挖掘

  孙功星研究员认为在发现希格斯粒子这个过程中计算机的作用非常重要,计算机在未来的高能物理学中将继续发挥重要作用。另外,通过把Hadoop架构引入到高性能物理计算领域,将有助于大幅提升处理与分析的性能。

  孙功星表示,在高能物理领域的大数据处理过程主要包括三个方面:首先是Data Recording,Raw Event从探测器获取,以二进制格式记录的探测器信号,再由计算机产生模拟实验的蒙特卡罗模拟数据,将物理信号数字化;然后是Data Processing,读出Raw/MC Raw,处理产生相关物理信息,如动量、对撞顶点等;最后就是Data Mining,由上千个属性组成的DST Event文件,提供物理学家进行分析,并最后产生物理结果。

孙功星:高能物理大数据存储处理及挖掘

  孙功星研究员表示,物理学家通过大数据处理三个过程,在里面找到有兴趣的数据。现在我们开始尝试采用Hadoop本地系统,采用Hadoop方案之后,对于网络、磁盘阵列的需求减少很多。当然在高能物理领域的Hadoop应用跟互联网有所不同,因此我们也有针对性,特别是在IO方面做了一些工作,以适用Hadoop架构。通过Lustre和Hadoop架构的对比,我们进行分析测试后发现,在处理性能和文件重建等方面都有着大幅的性能提升。过去传统的方式就是拿数据过来分析,扔掉不重要的数据,然后再拿数据进行分析,再扔掉不重要的数据,过程比较繁琐。通过Hadoop架构,我们将TAG数据放入到Hbase中,TAG数据则是非常小的,利用Hadoop的确是能大幅提升性能。

孙功星:高能物理大数据存储处理及挖掘

  最后,孙功星研究员认为高能物理领域是大数据、数据挖掘的技术,具有完善的数据挖掘软件。未来LHC升级将会产生几倍于现在的数据,给高能物理计算带来更多挑战,因此现在的趋势就是探索新型的计算机体系结构、高性能计算机结合的方案。

0
相关文章