【IT168 专稿】2012年9月18-21日,首届曙光超算技术大会(SSC 12,Sugon Supercomputing Conference 2012)在北京曙光公司总部盛大召开。本届大会面向广大从事与高性能计算应用、超级计算系统维护和应用相关的科研院所及高校老师、硕博研究生及相关企业工程师、从事高性能计算工作的技术人员,邀请重量级嘉宾,以及业界知名专家、Intel、Mellanox、Nvidia等知名厂商的技术专家等担任主讲教师,为与会学员奉献国内高性能计算培训的饕餮盛宴,帮助了解高性能领域的前沿技术,以及如何管理、使用、优化高性能集群。
北京市计算中心运维部经理潘勇先生在现场发表了主题演讲,并在其后的专访中向IT168编辑介绍了北京市计算中心的运营现状,以及近期工作规划。
潘勇介绍,北京市计算中心成立于1973年,是国内最早提供计算机服务的机构之一,如今已经拥有一千多台服务器,其中包括七百多台作为计算节点,总体计算能力达到两百万亿次的计算规模。其中10万GPU资源,通用CPU150万。目前客户主要来自于三个领域,包括生物科学、工程设计与科学计算。据了解,北京市计算中心针对不同的高性能计算服务方向都配备有专业的支持团队,可根据用户的计算需求,由工程师团队进行二次开发、模块化定制工作,甚至可根据用户需求帮助用户将任务提交到平台,计算出结果。而不是简单提供资源给用户使用。
潘勇谈到目前北京市计算中心正在致力于打造适用于中小企业的高性能计算工业云。对中小企业来说,应用高性能计算往往存在一定的门槛。北京市计算中心资源池则重点为中小企业提供高性能计算服务,在后端提供了强大的计算资源池,包括千核的计算资源,前段则提供简单易用的应用平台,把强大的计算资源通过Web服务的模式提供给用户。
“计算资源只是一个工具,用户不必关心具体如何使用,可以将工作重心放在自身的研究方向上。” 潘勇解释道。
完整访谈速记如下:
IT16编辑:超算的应用是需要整个产业链共同推进,超算中心作为具体的应用方有更多话语权,首先请潘先生介绍一下北京计算中心大概的状况。
潘勇:北京市计算中心成立于1973年,是国内最早提供计算机服务的机构之一,1979年联合国送中国三台计算机,其中一台就放置在北京计算中心。北京计算中心在王府井自建一栋楼作为机房,为国内企业提供计算服务。2009年以后,计算中心在机房建设方面的投入加大,不断更新设备和资源。到2011年达到大概一百万亿次计算能力,今年又扩充了一些新的CPU等资源。达到了两百万亿次的计算规模。其中10万GPU资源,通用CPU150万。
IT168编辑:计算中心利用率情况怎样?
潘勇:我们现在开通的帐号300个,同时在线计算的用户达到100多个,资源使用率大约在50%到60%。
${PageNumber}IT168编辑:这些用户主要来自于哪些行业?
潘勇:计算中心主要针对工程计算、科学计算以及生物计算三个计算需求量比较大的领域,为一些中小企业提供计算服务,用户包括大学、研究机构里的老师、工业制造企业里的工程师,他们需要计算资源的时候会找到我们。
IT168编辑:刚才听您谈到工程计算、科学计算和生物计算,这三类用户之间是否存在差异性需求?
潘勇:的确存在一些差异。工程计算主要是图像模拟、应用于商业方面。工程计算的商业软件都非常昂贵,一般只有大型企业才会购买这些软件,中小企业一般规模比较小,我们为他们提供计算平台,还提供了比较齐全的工程软件,此外我们还有专门的团队,如果用户有一定的设计需求,工程师团队可以帮助进行二次开发、模块化定制,而不是简单提供资源给用户使用,此外还可以做一些模块化工程设计,设计完以后我们把任务提交到平台,计算出结果,把最终结果告诉他,相当于定制化的服务。
生物计算也是类似,主要用户是一些医院、生物研究机构,会进行一些基因拆分、基因序列的次位分析,我们也有一些团队跟踪用户需求提供服务。生物计算服务有一定的特点,内存需求比较大,因而在资源调配上会有所侧重,根据不同需求做调配。
科学计算会应用更多的软件,比较多样性,包括多核的应用软件和小规模的并行软件,此外还有一些开源软件,需要更多的高性能工程师为用户做一些调优、满足他们的需求。
IT168编辑:您提到北京计算中心还存在一定数量的GPU,GPU的应用情况怎样?
潘勇:有一定的GPU用户,GPU应用大家还是在摸索过程中,很多用户会问我们有没有GPU环节,我们会陪他们一起做测试,让他们真正体验到GPU确实有一些加速作用,日后GPU需求会越来越大。
IT168编辑:是否可从运维角度介绍北京计算中心概况。
潘勇:目前服务器大约接近一千台,核数约有一万多核。计算节点约700多台,此外还有一些存储节点、功能节点。
IT168编辑:高性能计算运维和普通数据中心运维有何区别?
潘勇:应该会存在一些区别,高性能计算是计算密集型计算,强调并行集群架构,追求较好的计算能力,需要很短时间内尽快完成作业,在系统可靠性和安全性上的要求相比一般数据中心略低。企业数据中心对可靠性要求会更高一些。对高性能计算来说,一次作业不成功可以再次提交、重跑。但是高性能计算对性能要求非常苛刻,无论数据存储,IO性能和网络之间交互通讯,性能要求都很高,一般数据中心在性能方面要求并不十分苛刻,需要一定的数据安全性,以数据为中心来做一些可靠性的工作。
IT168编辑:您在推广超算应用中是否遇到一些困难或者瓶颈未来可以改善?
潘勇:现在在资源使用上,我们尽可能要切合用户应用需求,更加注重资源分给和调配上灵活性,在技术上需要实现灵活性、可扩展性。另外人才上也是一个问题,因为高性能计算领域还是比较广,存在各种应用、有很多交叉的部分,很多工程师懂这些东西很难,人才门槛相对较高。
IT168编辑:人才方面的问题北京计算中心通过哪些方式来解决呢?
潘勇:一方面是自己培养,我们内部会进行一些交流,我们有一个工程计算团队,对工程软件、工程设计上比较熟悉,生物方面也有团队对生物计算比较熟悉,还有云事业部,在序列化、在云方面比较熟悉。我们组建各个不同方向的专业性团队,每个团队自己发展壮大。
我们也不断从社会和高校中招聘,从学校的应届生里招聘一些感兴趣的工程师、实习生,形成一个平台来培养相关的人才。
IT168编辑:您如何看待目前我国超算的应用情况?反应了我国在应用软件开发层面是否存在一些问题?
潘勇:计算中心确实有一些大规模计算,一些物理力学上的,我们会根据用户需求做一些系统资源的调配,一般在比较大的工程里支持上千核的运算,但是更大规模的,八千核、一万核的作业,一般比较特殊,这些机构一般会有自己的一套系统来做任务计算。
IT168编辑:北京市计算中心定位更加面向中小企业?
潘勇:是的,一般大型企业为了解决自身需求,例如气象、石油这些企业都有自己的系统,不会对外开放,计算中心作为北京科学研究院下属的研究单位,主要针对中小企业提供公共计算资源服务平台,满足他们对计算资源需求。
IT168编辑:北京市计算中心如何看待云计算和高性能计算结合的趋势?
潘勇:高性能计算和云计算确实有很多相同之处,也有一些不同之处。高性能计算需要大规模集群计算,追求计算的强度和粒度,云计算更强调灵活、可扩展、具有可伸缩的弹性,需要资源的时候,可以申请到、也可以自由释放掉。高性能计算和云计算的相同点是对资源的集中管理,对资源要进行池化、实现可分配可调配。但二者追求的目标不太一样,高性能计算追求更强更快的计算能力,云计算追求的是通用性、更灵活,更有可扩展性、可伸缩性比较强。
二者之间其实可以结合在一起。我们希望打造一个北京市公有云平台,后端是很强大的资源计算池,涵盖千核的计算资源,前端会提供一个前端应用平台,把资源通过web服务方式提供给用户。因为真正使用计算资源和高性能计算的工程师、学生等,对IT不一定很熟悉,也没有必要太关心如何使用,计算资源就是一个工具,他们更关心自己研究的方向。
云计算和高性能计算的结合点就是我们如何把计算资源、各种资源池化以后,通过web服务形式,呈现给用户面前,用户通过很简单的方式可以申请、使用到资源,我们要降低高性能使用的门槛,原来高性能的应用门槛比较高,要具有一定基础和使用实践才能很好使用高性能资源。但是我们希望实现一个通用性的高性能计算平台,实现高性能计算参数化和通用性。
IT168编辑:现在大数据是否给高性能计算带来新的发展方向?
潘勇:大数据处理确实具有一定挑战性,涉及到应用系统如何对数据进行挖掘、分析,这可能对高性能计算整体架构都有一定影响,更主要还是用户的应用系统需求,会和用户的应用需求有很大关系。
IT168编辑:未来大数据有可能成为一个专门的高性能计算应用方向?
潘勇:对。
IT168编辑:北京市计算中心未来有什么样的发展目标?
潘勇:我们近期正在打造工业云平台,把工程计算和科学计算做成云计算的应用模式,慢慢根据业务和需求发展情况,扩展一些服务方向、服务类型,比方说SaaS服务,前期会侧重于IaaS服务。
IT168编辑:北京计算中心现在有没有应用一些运维方面的软件工具?
潘勇:运维主要是看系统的结构和情况,关注机房基础设施环境有效的监控和管理,会借助一些硬件和监控软件,做到基础设施实时监控。
系统层,要达到系统的可靠性、可用性,在建设过程当中要考虑到架构情况。应用层也需要根据应用不同,做到可靠性、可管理。刚刚提到高性能和云计算,需要把资源管理起来,灵活地进行资源再分配,这些都需要通过一些技术实现,通过一些作业管理软件和系统管理软件实现资源统一管理,帐号以及用户使用状况监控,包括虚拟化,可以实现一些云系统的序列化管理和监控,总体需要针对不同资源采用不同的技术,达到可控可管的目的。
IT168编辑:您认为本届曙光超算技术大会SSC12对北京市计算中心的业务开展、对整个超算应用普及有什么样的积极意义?
潘勇:有很大的积极性意义,非常感谢曙光能够给用户提供互相学习的平台,进行技术交流。这个领域总体比较小,但是大家需要更多的交流推动领域发展,曙光的这次大会非常有意义,对超算应用和行业发展都有很好的推广作用。
IT168编辑:感谢潘勇接受今天我们的采访,本次访谈结束!