服务器 频道

HPC风生水起 天河二号主任设计师访谈

  【IT168 评论】“根植应用 引领创新--2013年高性能计算用户大会”于9月25日在北京隆重举行。大会由浪潮集团联合清华大学、国防科学技术大学等多家单位共同举办,旨在促进高性能计算用户间的技术交流、经验共享,推进超算应用的发展。届时,来自中国科学院、中国航空研究院、国防科学技术大学、清华大学、上海交通大学、华中科技大学、西北工业大学、西安交通大学、华大基因、中国石油BGP、Intel、Mellanox等业内顶尖专家、领导厂商等数百位超算专家、用户、厂商代表将云集一堂共同探讨交流超算系统与应用的发展。

  国防科大卢宇彤:天河二号的创新科技
专题地址:2013年高性能计算用户大会

  超级计算机一直以来被广泛应用在一国军事武器、顶尖科技、电信等领域,涉及国家军事和经济机密,如何保障这部分的数据安全显得尤为重要。在“棱镜门”事件的驱使下,英国等政府已逐步加强对高性能计算、云计算等领域的自主科技创新投入,作为刚登顶世界超算TOP500榜首的中国自然也要加强自主可控科技创新的发展,大力培植本土HPC厂商。今天接着浪潮大会的机会,我们有幸采访到了天河二号主任设计师、国防科学技术大学教授卢宇彤和浪潮高性能服务器总经理刘军先生,请他们谈谈天河二号和国产超级计算机的发展。

HPC风生水起 天河二号主任设计师访谈
天河二号主任设计师、国防科学技术大学教授卢宇彤

  提问:我有一个问题请教一下卢教授,刚才听您的是介绍,您提到了咱们自主研发MIC的编程环境,编程环境能够在统一MIC,甚至GPU的架构,将来编程是不是以跨节点进行统一?

  卢宇彤:OpenMC是节点内的编程,国际上MIP编程大家都在用,实际角度理解,因为并行的系统肯定是分步组成,所以从MIP模型上来讲生命力比较强。控制MPI并发度,通过增强节点编程。现在节点内处于这种考虑,我们提出的是新的节点内OpenMC,OpenMP核心特点每个核或者每个线程的能力都是一样的。但是你可以规定一套线程来负责这样的工作,但是本质上核的功能是一样的。

  现在异构界定CPU和GPU和MIC是有差异的,但是如果CPU和MIC不一样的,里面可能有大核有小核,编程的时候就知道,我们指导命令可以在OpenMP上扩展,基本上简单讲就是这样,因为实际上还有更复杂东西;但是它还是试图节点内的东西。

HPC风生水起 天河二号主任设计师访谈

  提问:我想问一下,今年6月份天河二号问鼎TOP500之后引发了大家对于中国高性能计算领域技术口径创新的关注,请您大体介绍一下中国高性能计算技术在自主口径创新方面,跟其他国家相比大体处于什么样的水平?

  卢宇彤:你也是提到高性能计算机,实际上自主可控,一个是自主的技术,一个是我可以控制自主可控的技术。高性能计算,天河系统所有技术都是自主可控的,虽然我们用了英特尔的CPU,英特尔这样的MIC,但是我们的主板,我们的系统全都是自己设计的,其实也不存在别人讲的其他的问题,因为我们所有的主板芯片都是自己设计的。这个自主就是在节点这一级设计上,计算节点是我们自己设计的,里面有几层,包括存储,监控、服务存储都是和浪潮合作设计的。还有我们在互联研制上面其实走过了将近有20年,至少有18年的历史,实际上我们应该这一代算起来是第四代互联,我们前三代互联的水平其实都跟国际上最顶尖的水平都可以相比。我们前面跟商用户的IB,因为他有些高性能计算机,像Cray、IBM早期互联指标还是不公开的,但是我们跟公开的IB相比的话,我们每一代从SDI等等都比他快。

  自主CPU我们也是一直在做自己的CPU,当然我们现在设计的技术和英特尔来比的话还是会有两到三年的差距,但是这个差距我们觉得还是在缩小。另外一个就是自主的,我们采用不同CPU的设备结构,比如像英特尔在CPU设计上面投入很多年的研究,很大力度,他技术也比较领先。我们也处于在CPU结构上有所创新,能够提高单CPU的能力,应该说它的差距逐渐缩短的过程当中。

  还有就是软件,我们所有的软件,高性能计算和其他应用需求稍微有一点不一样,因为高性能计算好多人做应用的它有一个延续性,它对运行的环境有一个习惯性,所以我们软件虽然是自主软件,但是我们所有接口还是符合国际主流MIC的主流和使用习惯,但是我们底层全部做了适合体系结构的特点。

  提问:您刚才提到天河二号而且采用国产化处理器,您能介绍一下这个国产化处理器使用规模应该有多大?另外主要应用率在计算方面比较多一些,您能介绍一下?

  卢宇彤:我们现在处理器,天河二号应该是第二代,其实是第三代,其实飞腾系列来讲,CPU16核,主频1.8G,主频是最高的。整体效率来讲,包括应用,LinPack测试和英特尔测试来讲我们的效率是比较高。在超级计算机应用领域飞腾处理器,因为它是多核多线的结构,计算率、吞吐率会更高,所以我们把它用在安全信息服务这个领域。因为自主芯片安全特性在上面会更强,整个CPU想在数据处理,存储与事务处理,以及数据服务领域在做应用。

HPC风生水起 天河二号主任设计师访谈
浪潮集团高性能服务器总经理刘军

  提问:请问刘总,因为天河二号这次TOP500这件事情,标志着计算能力,是不是斯诺登事件以后,“棱镜门”大家对信息安全空前之高,请教您一下,我们国家在超级计算能力上已经达到了一定的高度,我们针对于信息安全的防范设计上是不是也有一些考虑?因为过去好像国内并没有发生过比较严重的信息安全事故。比如说像针对金融,大家只是假设发生过小规模的这种问题,就是没有发生过国与国之间或者纯恶性的挑战,如果从我们国家信息安全防范的角度看,我们是不是具备这种预警能力,或者我们有没有这样一个设计?因为光从计算能力,我觉得是从科学技术角度讲我们有这种能力,从软件设计上我不知道和这种能力相匹配我们有没有?

  卢宇彤:这个问题我觉得比较大,我回答一下,再请刘总补充一下。因为我们高性能计算机超级计算机服务的对象和领域其实跟你说的这些有一些差距,我们主要是科学发现,技术创新这一些科学研究,当然现在的应用领域从传统领域慢慢扩展到社会经济的计算或者国家安全这样一些设施。从高性能计算机本身来讲因为它的使用模式和它的网络方式其实跟互联网使用模式还是不一样的,所以安全功能和安全的考量不是直接挂在互联网上,他可能通过他前端服务节点或者服务节点才能挂出去,所以从我们高性能角度来讲就算你能够攻破到服务点上, 服务节点这一端,互联网介入这一端安全措施是通用的,是一致的。超级计算机本身来讲并不是直接挂在这个领域,而且他也跟各个超算使用模式有关系。像国外也挂在互联网上,他基本上不挂在互联网上涉及到国家安全的应用。但是对于国家或者普通大众来讲,从高性能计算和信息安全角度他考虑的这些问题,我想信息安全领域和高性能计算领域的问题应该是有点差别,刘总再解释一下,因为信息安全我不是长项。

  刘军:对,实际上信息安全的事它确实对国内厂商是一个比较好的机会。刚才谈到在超级计算机这一块优两个,一个方面是军口,平面机房都是路演,包括人进去都不能出来,在使用口网络安全,我们可能经常也会有一些不太在意的客户,像一些大学的,一些研究所的,他对外的服务,比如他外面人来访只是访服务节点,他有一个域名,但是有的时候密码设定或者做得不太好的时候就会有一些黑客进去捣捣乱,但是名口性质做研究,更多是黑客性质。谈到信息安全可能还稍微有一点差别,现在信息安全这一块我们谈到在一些比较关键的信息和数据方面会涉及到,一个使用到国外一些设备,一些软件和一些服务,在整个过程当中会产生一些信息的泄密或者产生被攻击的事。

HPC风生水起 天河二号主任设计师访谈

  提问:我有两个问题,第一个问卢教授,天河二号出现的确是振奋人心,但是有一些网友也有一些说法超算是堆出来的,不知道您怎么给大家解释一下,用通俗易懂的语言让大家知道超算给大家带来什么好处?第二个问题刘总刚才谈到了浪潮有整体的布局,业提供了完善的解决方案,我想知道浪潮是起到什么样的作用,或者您对浪潮的定位是什么样?他是解决方案传统商还是会直接参与到客户互动当中呢?

  卢宇彤:你这个问题经常会有人问,但是其实也挺难答的。因为它涉及到一个普及的层次和一个比较高的超机计算机体系结构和软件。你要说系统的话,它其实不单单是它组成的这些包括CPU模块,它实际上是体系结构的选择,互联网的选择,系统软件的配置,整体的系统。你如果说堆出来的话,你可能再堆十个,一百个,哪怕一千个你还能堆出来,但是对于高性能计算机来说我现在是数十万个,十百万个核,你堆上去就不能加速你的应用了,所以这里面有很多体系结构的关键技术,也有更多的互连网络和软件的技术,而不是说我这个东西堆出来放在那儿就能用的,这个问题很难答,我也不知道。很多人以前也问过这个事情,其实关键的你要我打比方我还不知道怎么打?我想一下,比如你有一堆的砖块放在那儿,你怎么把他摞起来,我们拿建筑打比方,我不知道怎么说。给你一堆砖,给你搭房子你可能搭了一层两层,形式也不一样,给他来搭可能他搭了三层四层,给设计师来搭,他可能搭出来让人很惊叹的建筑。

  刘军:说到超算,我们浪潮一直最近在思考这个问题,超算和云计算的关系,从我的观点,我认为现在对于云计算,对于超算未来得发展究竟产业形态是怎么样?现在其实没有定论的,大家都处于发展的一个过程当中。可能我们乍一看上去亚马逊这边做供应商,但是我们深入进去看,你如果真的把很多特定应用放上去他是做不了,他是做不好,所以这里面我们真的找到适合于客户应用价值的需求在里面。现在我们对云超算层次来看,我们从最终用户那一层来说可能他想要的就是他自己的应用科研一个过程,在这下面我们可以帮你去建设,也可以说是我们与这个行业内他去做云超算的东西,我们帮助他给这些客户提供好的客户服务,或者超算在不同层级我们提供不同层次的需求服务,我认为这都是我们可以去做的一些事情。可能在原来在云计算里面谈得很多的,要不然他做IAA,要不然他做SAA,还是能从整体角度上看,究竟我们超算用户究竟想要到的价值是什么?

  提问:刚才您谈到飞腾处理器的时候,我们现在已经经过天河一号、二号积累了一些经验,未来研发的时候超级计算机上,国产自主研发的处理器是不是能承担更大的作用?或者说他的数量还能用得更多一些?

  卢宇彤:肯定的,我们肯定会在这个里面更大规模用自己的自主CPU,但是我觉得这是逐步替代国外商用CPU的过程,这个过程到底有多长现在还不少说。但是我们一直会努力自主CPU,因为我们做自主CPU用在超算这一块也想几种典型的应用,针对典型的应用特点来优化设计我们的自主CPU,对某几类或者某几大类应用行业我全部由自主CPU过程的系统能够发挥比商用CPU更好的性能,所以这个过程是探索使用扩展规模的过程。但是这个答案肯定是肯定的。

  提问:现在我们在用这些处理器可能更多的在于互联互通协调方面的工作,您的意思就是说以后他们会逐渐承担起计算的任务?

  卢宇彤:对,肯定的。现在也承担计算的任务,只不过规模比较少。这个也跟应用相关,因为对于英特尔CPU来讲实际上很多人,不止是英特尔公司,就是各种各样的研究机构和各种各样的大学,因为用的多了,在他上面开发的软件更多,有的他可能不知道。现在自主CPU存在问题,因为应用面还不是很广,现在(英文)开发应用的人还比较少,所以这也是它往下一定难度的问题。

  提问:再问刘总一个问题,我们之前浪潮和英特尔建立并行计算的实验室,计算的可靠性,有没有对外国产服务商,针对他们联合计划推动本土化生态环境与发展?

  刘军:实际上咱们国家做的大的计算机有国产化的重要角色在这里面,我们上个礼拜去参加IDC全球用户一个会议,包括上次报告他们对中国HPC非常关注,包括飞腾、他们敏感度非常高的。包括现在也看到我们从国内整个气氛来看也已经越来越多的用,当然说他的比例还没有占到非常大的,但是这个趋势在发展,好的超能在建设,他就提出来我当然是需要主体是X86的集群,但是我同事有存储,飞腾的、神威的,他要为未来做投资。现在在做这些工作我们现在先具备了解国产处理器,我们怎么去使用他,做HPC的作业,怎么去优化上面的程序,这就是未来的一个工作。我也看得出其实你们有很多国内的一些单位,他也启动了一些在国产处理器上面应用的推广,一些计划,在吸引一些国内比较典型的应用,怎么在国家处理器上面去跑。

  提问:我有两个问题,第一个问题先问一下卢教授,天河二号也采用了本土HPC厂商和技术,我想问一下这是不是也从中反映了中国HPC厂商就具备了跟国际厂商竞争的这种能力?再问一下刘总,咱们浪潮作为本土HPC的厂商,我想问一下跟国际厂商的竞争,现在高性能计算技术越来越多的应用到了您用的领域,比如在和IBM国际厂商竞争的时候,本土国产厂商大体处于什么样的形式,您觉得有什么优势还有什么不足?

  卢宇彤:是的,我们现在在国产高性能计算机包括跟天河都跟浪潮国产厂商合作,确实有一部分HPC的构件,就是我们机器人的构件采用的是国产的。HPC它的组成,CPU节点、互连网络存储,现在我们CPU有商用的,有自主的,主板设计这一块是我们设计的,但是他还有生产的厂商。存储这一个地方实际上我认为像浪潮也做存储,实际上存储产品,我们其实大部分都是选用国产的。替代的我认为也是一步一步的在走的,我们国产大的份额也是增加,将来大家共同努力把国际的都替掉。

  刘军:从我这一块对这个问题的感想,我从工作到现在大概15年的时间都是在这个行业里面,并且都是在国产阵营里面。从最开始非常一步一步精心走到现在非常不容易。包括我们现在天河二号都第二次拿到全球超算的冠军,但是我们的国产份额也在快速的增长,但是依然我们在很多的行业,或者说在国家采购政策领导层面,我认为还需要加强对国产的重视和一个支持。其实有好多时候我们并不希望有一个政策说优先采用国产的HPC,我们希望通过公平的市场竞争凭我们的产品,评我们的服务,质量、性价比赢得客户,我们不希望通过政策保护赢得客户,之前方方面面的原因,当然某些行业或者某些用户采购政策上面需要我们呼吁,需要去加强给国内厂商一些公平的竞争环境。包括屡屡还会碰见你会发现入围名单里面怎么没有国产的呢?没有浪潮,没有曙光,都不可想象,但是这个东西他就存在。但是我们现在浪潮我们到美国,跟美国用户区谈,是不是销售(英文)?NO,美国政府不可能让在美国这些机构里面去使用,他怕我们直接就封死了,但是我们自己在国内我们看见好多把国内最大的浪潮曙光的机器,我们希望媒体也呼吁这些东西。

  提问:您刚才提到在国内连公平竞争的机会都没有,您觉得造成这方面的原因是什么?比如说在性价比,技术方面有问题还是说客户传统的理念上面存在很多的问题,比如说只认证国际的厂商,对国内厂商不够认同,还是国家层面有什么问题?

  刘军:当然有多方面的原因,一个可能是原来品牌迷失,原来比较信赖,比如我买IBM绝对不会有任何风险!他的风险是决策风险,我买IBM的出了问题领导也不会说,你看我买的最贵的,买的最好的牌子。但是实际上你往往打着这样的心理最后都会出问题,就是原来一种习惯也好,或者原来一种心理也好。或者原来商业竞争上不同品的措施,我认为并不存在产品质量,性价比这些东西。

  提问:其实外面报道天河二号造价还是非常高的,因为它时间特别长。所以我们虽然制造出来在国际上一定影响的超算,在实际民用方面怎么样?报的一亿美金,这种影响力或者这种技术再往民用去转的话,会有特别好的收益吗?在民用领域去实现?

  卢宇彤:首先我纠正一下你的说话,天河二号它本来就是民用的,因为它是国家科技部“863”计划里面,目标就是民用和地方的政府合作,天河一号是天津政府合作,构建天津超算,他本身就是研发到后面的使用过程都是民用的,是开放的超级计算铭泰,天河二号是和广州合作,他不存在因为军用所以怎样。但是你说的研发过程,在超级计算机研发过程,以前周期更长,因为它是比较复杂的系统,另外也是国家战略势力的体现,所以它投资的经费,额度比较大,研发的时间以前都是以五年计算,现在时间在缩短。不管天河一号、天河二号跟国际同类比起来算短的,所以这是正常的便短的时期。另外您的意思像天河二号的机器能不能再复制到其他地方去。

  提问:对,以浪潮这种厂商真正的去商业化运作的时候,肯定不会去投资做这种事情,所以我不知道天河的技术能不能让浪潮在后续这种产品的实现或者销售为商用客户中去实现?

  刘军:实际上是这样,我们合作的事是多方面的,实际上你会看到它会有很多的小天河,那些小天河系统里面它也会有浪潮的一些工作在里面。

  卢宇彤:我再给你一点信息,天河一和我们 银河系列并发的,技术方面一脉相承,关键技术上面,我们用在银河系列和天河一和天河二号都可以用在规模小一点的,用户可以定制的。2010年我们天河一号研制成功以后,你可以叫小天河这样的系统,实际上到了2012年推广了11套,当然我们对国防科大来讲,因为我们是一个学校,因为后面还有后续的服务,还有生产的周期,所以我们这11家都是科大推出去的,我们选择重点国家和重点的军队,其实还有更广泛的HPC用户,像浪潮这样的公司在推广。应该讲天河和银河超算研制技术对这些都是有促进的,都不是说你花了这么多钱别人应用。

  提问:虽然天河二号的应用,超算应用方面怎么样?因为去年采访说中国朝酸应用方面还是很缺失的?

  卢宇彤:因为高性能计算应用,整体应用水平来讲我们国家确实比美国和欧洲要落后很多,其实原因我认为是很复杂的,是多方面的,我们现在的高性能计算机由于最近几年发展比较快,但是相配套的应用和软件它其实跟整体的国家科研水平是密切相关的,就是说它科学研究的水平,我们跟欧美是有差距的。因此跟他对应的他有些应用问题的发现,它这个是跟国外有差距,但是你有他的机器,他应用软件的发展没有到这个程度,就跟国家整体的科学发展,你的科技发展水平其实是有关系的,这是一方面的原因。再一个以前我们国家可能超级计算机普及,包括人才的普及,使用的普及可能都不如欧美做得好,其实我们这几年也有比较大的发展,包括天河一,尤其我个人感觉天河一出来以后,实际上对国内各个领域应用推动还是比较广的,经过这几年的努力,我觉得我们天河研制跟国内的应用有一个引领的作用,这个作用还是很明显。跟美国来讲,他是应用驱动你的高性能计算,我们基本上这两个是互相促进的,我们国家目前的状况,机器的发展水平比应用的发展水平稍微稍前一点,万核应用也是这样,但是我们现在有百万核,我觉得就是这个关系。

  刘军:现在我们做机器的发展速度超过我们在应用和人才方面的成长速度,就会显得洪沟很大,反而这种洪沟的,我觉得会让我们更加有紧迫感,我们要把应用和人才这一块需要抓上去,就是你如果这么大用国外的软件就受到很多限制,包括(英文),包括可扩展性等等都会限制,为什么我们这样的应用没有出来呢?我们可能在人才方面做得不够,我们这两年做大众朝算就有这样的问题。中国的学生其实都很厉害,给他们更多的一些机会,让他们在大三的时候做这些工作,他们做得会非常漂亮。如果我们给他们更多的条件或者更多的机会的话,可能能对我们应用发展这一块有非常好的后备力量。

  提问:我有一个问题想问刘总,咱们现在得到的信息都是单个点一个信息,比如说天河二号或者说和某某大学合作单一一个点的信息。从您从业这么多年观察来看,在您看来是咱们中国超算总体的分布是一个什么样的情况?因为现在各个大学必须清华、还有西安大学都有他们自己的超算,在地域分布上还有天津的一些,上海的一些,还有广州的一些,在总体的以全国范围来看,您看咱们中国的超算分布是一个怎样的?未来重点发展方向会在哪方面?比如东西部还是集聚,或者会在一段时间内以东部为重点?

  刘军:以往趋势来看,用两个集中来看,一个是应用需求集中的区域或者行业,另外一个是经济发达的区域,经济发达的区域我觉得可能比较好理解,因为近几年我们建了大的超算中心,其实绝大部分都在东部和南部这一带,它希望通过超算带动他这个地方的科研的进步,产业的创新,信息化建设,天津、广州、济南,深圳,其实都是这样。另外我觉得应用需求的集中,从这个方面来看,我们这么来理解,原来传统的理工科大学比较集中,科研院所比较集中的这么一些区域它的超算学生比较多,北京、上海、武汉、西安,南方、大连,行业来看,我们国家石油方面整体水平和容量在世界上都是非常靠前的,但是我们举个对比,比如日本就没有这个应用,因为他没有这个需求。但是在制造方面,汽车这一块我们就很小,但是日本那一块就非常大,这跟我们产业需求就直接相关了,我们发展比较强的一些产业,一些行业这一块就比较好,像石油的,近年来发展生命基因的,军口这一块行业航空的,军事仿真、模拟,包括中国人在大气、海洋,材料,整个来说我们学科实力,行业实力比较强的地方,整个发展就比较好。

0
相关文章