服务器 频道

看淡TOP100排名 访曙光公司副总裁聂华

  【IT168 专稿】2011年全国高性能计算学术年会(HPC China 2011)于10月26至29日在山东济南山东大厦召开。中国软件行业协会数学软件分会、国家863高性能计算机评测中心和中国计算机学会高性能计算专业委员会在会上联合公开发布了《2011年中国高性能计算机性能TOP100排行榜》(完整榜单请点击这里),中科院软件所研究员张云泉博士做了《中国高性能计算机的发展趋势分析与展望——从中国TOP100排行榜谈起》的报告。

  借着本次TOP100发布的机会,我们特别采访了曙光公司副总裁聂华(以下简称聂总),请他谈谈对于TOP100、高性能计算、云计算等相关的热点问题。

  聂华:我是中午的时候看到今天济南开的高性能计算专委会会议PPT,TOP100提前发布。应该说这次是我们和IBM一样占了高性能计算机前100名的35套,现在整个来讲从应用趋势上,总体格局并没有变化,跟去年数量和格局并没有太大的变化。

  我本人是比较不希望给性能排名过重的观点。因为给这种性能看的过重的话,容易导致一个误区。因为在我们曙光公司看来,好比一辆好的跑车,性能当然代表着一个机器的性能量级和其设计能力,真正来讲他只有靠轱辘转还有跑起来才会有真正的意义。

  从曙光来讲,应该说这个TOP100的排行榜仍然是一个叫做计算性能的排行榜,实际上前一段时间曙光也专门开了一个发布会,我们曙光今年很重要工作重点是维持原有高性能计算的领先优势基础上,我们大力推广云计算领域的概念。

  云计算目前并没有一个很好向高性能计算或者是超计算一个智能指标排行,从云计算角度现在确确实实缺乏这么一个很显著的技术指标。但实际上来讲云计算更深入到我们日常工作当中,相信大家都能体会到。

  今天借开场白的机会,我想可以谈TOP100,也可以谈性能,我还是不希望绝对化,没有意义,从技术观点、学术观点还是从应用或者是真正对企业发展的意义来讲他并不是一个绝对的单一的数字。想提前表这么一个态。

  记者:我想问一下曙光接下来在高性能计算里面的优势,云计算方面优势?刚才你也谈到在TOP100排行榜中曙光占比超过35%,1/3这么一个市场份额。如何把这个优势打造在云计算方面一个优势,推动曙光在云计算方面的全面的落地?

  聂华:现在其实单纯从技术角度来讲,现在对于很多我们的很多技术观点来讲云计算和高性能计算有相当密切联系,并不是说它们没有联系。他们非常重要的联系就是其实云计算本身也是向计算集中,虽然他是以分布式网络构建,但也是向相对数据集中、计算集中有趋势,解决更大规模问题有更大的趋势。云计算很多所涉及到技术热点也是传统高性能计算当中一些技术的一些集成。这个过程当中很多关键技术,高的计算性能、高的数据处理性能,高的网络通信性能等等这些东西都有一定的集成。但是云计算其实以我们的理解来讲,云计算从出现的一日起就更加面向应用体验。从这个角度来看,我们给云计算这些技术纷纷出层次,并不是基于传统的PAAS、IAAS等来分。我们分成所谓基础设施层次,云计算的基础设施层次,你会发现在这个层次下大量的技术构建是和高性能计算当中技术构建是相类似的。曙光在这个基础设施层次上来讲,我们实际上来讲有长期的十几年的经验,无论云计算当中涉及到的各个方面一个基础设施的技术,我们现在都是构建的。

  第二我们所说云计算的一个平台,云计算一个平台从这个角度来看,现在外界有各种各样名称和描述,有的描述成云操作系统,有的描述成构建也有把它叫成不同的名字。这种平台级的技术,或者我们所说介于用户硬件和用户体验之间有一个平台管理层一些技术。这些技术前一段时间如果参加过曙光云计算发布会的话,我们在整个云安全、云管理、云运营等等一系列技术层面也已经完整的云计算体系已经构建起来了。这个过程当中我们也找到一些合作伙伴,既包括曙光要利用一些开源技术为用户提供廉价服务,也包括曙光跟VMware厂商来做一些商业化的一些成熟的虚拟化或者是运营管理平台认证技术,为用户提供对安全等级或者是稳定性更高的技术层次。

  这个也是基于这个平台,曙光也已经开始对自己一个经营视野或者是延伸到我们在自己的自建云计算中心,可以看到全国很多城市曙光也已经有了示范平台,也已经有很多层次来签约。曙光在各个层次里面有的是同步在建,有的是做解决方案规划,有的应用已经开始运行起来,不同层次。在未来几年时间里曙光在多个层次要构建以层次为基础的云计算中心这么一个工作。等于我们所说云计算平台一层。

  最后一层跟我们用户真正应用体验里面还差一层,就是我们所说的云应用。云应用一层大量靠我们一些软件提供商来跟曙光一起合作构建的。这里面尤其是一些传统上让我们用户有很好的应用体验,无论是ERP一些软件还是游戏软件还是电子商务软件,还是整个跟应用相关的层次,这个曙光将联合各个层面的伙伴来做。我们曾经开一个玩笑,现在曙光要做的事情是把高速公路要修好,然后上面跑的车我们还是开始跟大量合作伙伴一起来合作。我们坚信,在现在活跃经济刺激下路修好了一定有车跑,车一定会越来越多。

  记者:我主要想问一下星云这边的问题,星云目前部署情况怎么样,具体做到哪些应用?或者是服务于哪些行业?我们普通消费者在星云这块能得到哪些切实利益?

  聂华:星云其实是大家比较关注一台机器,这台机器也参加过识别性能TOP500排名,也参加了国内TOP100的排名。这一次如果你要研究中国TOP100的时候,这次会发现一个细节问题,这个细节是什么呢?就是星云降低了性能,并没有提升性能,你会发现星云这台机器一拆为二,一台机器维持原有高性能计算的性能,比原有性能降低一半。这次发现整个星云排名为什么一下子往后排了第四,并不是技术没有达到,而是可以这么说,是我们跟国家超算深圳中心协商之后,我们达成一个认可,人为主动降低了星云高性能计算部分的性能。

  第二在这个过程当中,深圳云计算中心其实他也是国家超算深圳中心另外一个牌子,面向云应用计算在TOP100也出现了。他出现原因,他并不是特别强调星云性能,这次排到第七,具体数字我记不太清楚。刚刚中午我看了一下那个报告。他实际上另外一个也体现了,我们曙光并不是单纯未来去争这个性能,这个没有意义,机器一拆为二之后,总体性能比原有性能仍然降低很多。在云计算这个机器的时候,他去除一些加速部件,采用灵活通用,面向分布式网络的部件,这个部件采用云计算应用里面是合适的架构。

  这一点上可以看到其实星云已经悄然发生一些变化,它已经对外呈现以科学计算为主科学机器,一部分面向传统科学计算高性能计算服务。另外一部分已经通过改造和整理之后已经随时准备去迎接新的云计算应用的服务。这台机器现在来讲因为深圳对整个系统当中保有极大期望,整个深圳数字城市或者未来信息化抱着非常大期望。将整个投资全国同类中心投资最多的一个,整个项目建设投资12.3亿。这么大投资,由于真正投资要进行一定操作和建设方面原因,所以整体系统开工时间比一开始预期向后延了。去年推出一个小规模对外提供试运行的情况,今年现在来讲整机已经全部在上面安装应用。深圳在10月份的时候,深圳高交会,10月17日有一个中国计算机协会的会在深圳。整个系统在对外呈现出全面开工和运营的状态。

  目前首批在上面移植包括几个应用,包括一些教育一些应用,包括他还有一个医疗的应用,手机、还有云计算等运行。由于整个深圳云计算中心,我们跟他们交流比较多,他们还是非常希望能成功运营一个超大型云计算中心,并产生直接经济效应包括未来潜在社会综合效应。他是双关注,要摆脱过去很多超算中心或者云计算中心以纯基础设施为主的运营呈现,以公益设施为主呈现,他要投入商业运行。

  上面来讲,我也非常佩服他们设计各种各样商业运营模式,他们曾经跟我说过这么一句话,他们有时候不敢跟同行交流,他们现在没有全面开通,交流更多的话,他们一些叫商业模式的畅想如果公开的话,就失去创意或者是失去了未来运营一些收益。所以目前这个还是等他正式揭开面纱之后再看。

  记者:是不是意味着现在高性能计算都在走向一个通用处理器这样一个趋势?

  聂华:高性能计算我相信从未来来讲仍然应该说有几个分支,一个是我们所说的传统科学计算,传统科学计算仍然现在有两类,一类是四核使用加速器进行加速,这类研究问题一般计算规模非常庞大,气象问题、石油问题等等规模非常庞大。而且其中数据关联度相对比较低,基本以通过科学计算进行整理之后以一种现代理论,矩阵乘加为主的计算。仍然未来向加速器来发展。这种加速器发展情况下,可以看到一个好的加速器他在同样耗电情况下可以获得通用CPU几十倍的性能。显然对于庞大工程计算来讲,加速器带来性能意义、现实意义,对整个社会运营成本,电力能源节约都是非常重要。

  第二类其实是我们所说一些向传统工程计算,这些工程计算有些问题是紧偶合的问题。这些问题同时后台往往牵扯一个非常庞大商业软件的应用。开发商业软件其实很多国际著名厂商投资成本都非常巨大,这个传统运行模式和商业属性,这些软件目前还是基于通用处理器为主,他们的规模并不会特别庞大,因为他们基本还是以这种商业软件为基础的。

  现在在云计算领域,其实云计算当中涉及很多传统的经典问题,包括我们物联网当中一些应用,无论是智能交通还是其他等等,我们互联网当中一些应用等等这些现在大家比较流行的是云计算。其实很多也是我们传统高性能计算的处理,现在更多向云计算需求来转换。现在云计算技术里面仍然现在大量的云计算技术还是更多基于相对通用架构和处理器。目前可以看到,云计算应用里边能特别好的使用加速器的应用现在并不是特别多。

  记者:刚才您说了曙光这边云计算一些优势,是和之前做高性能计算技术是相通。能不能跟我们分享哪些技术他们是可以相互利用或者说在高性能计算已经有了一些成果可以应用到云计算中。第二个问题是您说到曙光未来因为在云计算扮演一个什么样的角色?

  聂华:技术细节说起来不一定能说全了,首先我们可以看到高性能计算解决是单机不能解决巨大工程问题,这是高性能计算最早的由来。这些工程问题最早对外呈现技术是变形技术,好象大家所说多CPU共同解决一个问题。可以看到至少今天开玩笑讲所有云计算不是单机能解决,单机能解决的计算不是云计算。当你一旦到了机器数量非常大的时候,会发现几个问题自然而然开始产生,第一我们必须关注整个一个良好体系架构设计,良好体系架构其实包含了整个让他机器很好的结合。我们不仅使用通用的架构,SMP架构,其他的MPP架构,还有新的设计里面我们也开始提出SPP,CSPP自己的一些设计理念一些自主架构技术。在这种架构技术之上,可以继续看当机器规模大到一定程度的时候,必然带来管理方面问题。云计算今天也带来管理问题,这些管理问题都是我们过去高性能计算当中一些强项。可以看到安全的一些问题,也是传统高性能计算非常关注,一个大机器攻击和抗攻击都是伴随发展持续进行的。

  包括其中我们说到网络通讯技术,高性能计算和云计算都要解决这种网络高带宽低延迟通讯。高性能计算当中有很多计算、存储或者数据相当大量,比如石油数据或者过去生物基因数据都是相当大的数据处理问题。到了今天发现云计算里面对于海量数据处理仍然是今天必须要解决的问题。恰恰这些技术的解决都是基于传统高性能计算对这些技术深入研究和这么多年新发生技术的一些集成。

  我们外围可以看到云计算的运营成本的问题,这些和高性能计算也是非常相通的一个问题。为了降低运营成本,为了降低它的能耗,我们开始采用各种各样手段,包括我们所说POE里面基础设施,我们用机房还是机柜,机柜里面高密度里面用叶冷还是封闭机柜的风冷循环。这些技术在高性能计算云和云计算的时候很多都是相通的技术。

  当然也有一些我们所说的云计算新衍生出来的一些技术热点,比如虚拟化方面的技术,一种对于数据基于更加分布和广泛网络一些分布式的技术。和我们现在大家可以看到云计算也非常关注我们的运营方面的问题,运营里面用户资源弹性、动态标配。虽然传统高性能计算当中有,云计算提出更多的挑战。

  我们可以看到在平台一层,其实我们说了这么多,你会发现一个问题,云计算很多技术热点其实是对传统高性能计算当中这么多年技术积累一个技术和延伸。并不是某个技术是过去高性能计算技术当中没有关心到,今天突然冒出来。这个过程,当然云计算由于解决问题的规模和它对于未来这么多公司对他的积极参与,他可能要对硬件之间,CPU对云计算的支持,整个来讲机器设计当中对云计算的支持,网络当中对云计算的支持或者甚至有存储和虚拟化的技术,这些技术是今天新出来一些热点,也是过去传统技术的发展。
这点来讲,我相信曙光作为高性能计算过去已经耕耘这么多年,到今天深入到云计算领域当中我们还是在平台一层有很多优势。

  记者:曙光计算能力是希望建一条高速公路,这样定位在基础架构或者是基础设施这个层面?

  聂华:目前我们所说经常有一个简短的说法,过去实际上曙光对外呈现是一个服务器供应商的呈现。参与到高性能计算当中,实际上曙光很多时候呈现也开始积极参与我们解决方案提供商。我们开始成为用户一个好的咨询和为他提供更好方案来更好的发展。过去谈服务商,过去也谈技术和服务,依然是基于解决方案是授权和培训,这是我们服务器供应商是售后,这是传统服务。到了云计算这个时代,其实曙光现在开始积极建设成立云计算中心,你会发现曙光在今天的时候会对服务供应商会显示更强。我们实实在在将会成为一个真正意义上的服务供应商。

  这个过程当中可以看到曙光过去我们叫做3SP,今天我们给自己也在讲4SP,我们在服务器当中曙光也是存储供应商。前两个SP都是硬件,我们也相信对于现在随着曙光发展,随着技术发展,曙光非常有意愿去来软件和硬件、能力均衡发展的一个层次,软件不是编代码的软件,而是强调基于一个云服务提供供应商的一个软件。曙光未来从市场角色也有适当变化。

  记者:曙光现在已经开始在全国布局这个“城市云”,因为云计算是一个新兴技术领域,它的技术标准到目前为止还是缺失,有关政府方面技术标准还是缺失。您觉得这方面技术标准是应该由行业自己自主制定还是政府主管部门制定,然后进行改革。

  聂华:云计算很多人对这个概念争议很大,不好说。拿高性能计算举例来讲,高性能计算的标准是什么?也不是说某一个企业或者是某个政府机关出了一个书,这个书上出一些定义,满足定义叫做高性能计算,不满足定义不叫高性能计算。为什么今天说TOP100、TOP500这么热,热的原因我们学术界对他争议很大。这种东西他并不能真实的反映一个机器的综合能力,只是机器当中比较偏激的能力。对于某种特定实际应用进行解题,这是最接近理想模型一个实际问题。为什么它这么热?实在很难为某个领域找出大家都认可一个工人标准,高性能计算当中发现了,大家都集成下来。TOP100都是这么多年的集成,虽然他不能真正真实的反应机器能力、厂商能力或者是区域当中能力,他是特征值,从规模来讲已经反映区域当中设计能力,区域当中高性能计算应用需求能力,也反映一个区域当中高性能计算当中一个活跃程度,他只是一个参考的特征值。恰恰在高性能计算找到这么一个参考特征值,现在大家来讲对他不能说崇拜,各方面都变得非常关注。

  云计算当中现在这个特征值并没有真正的找到,甚至于云计算未来从发展来讲,云计算领域当中最重要是什么?有人说最重要是运营成本,有人说最重要是使用易用性、方便性、弹性,有的所说这方面是所谓规模,由于他规模带来数据集中价值的一个呈现。在这个领域当中,我们可以看到目前现在大家还没有找出一个可以来评价云计算一个最有效、最具参考的一点。这点没有找到之前,目前标准制定只能说是探索,政府也在探索,政府出一个标准,可能针对云计算QOE,发现云计算耗电,构建机房的时候如何降低外围耗电,出现QOE,这是外围当中参考标准而已。可能说大家发现云计算的弹性,弹性往往跟虚拟化可能是不是相联系,既然跟虚拟化相联系,为了让未来发展大家可以少走弯路,大家在几个虚拟化厂商人模式固化下来,可能会出现行业标准或者是行业主导推动的标准。

  这个过程当中,我相信能获得一个业界认可的一个标准还不是一个短期之内的事情。能获得我们所说的能代表云计算概括宏观面貌的几个要素,现在看看可能相对会更遥远一些。实际来讲,云计算从诞生的时候就有一个说法,你不用它,你不推广它,你很难去总结它,你很难去提升它。现在发改委刚刚是批复了针对五个云计算试点城市批复了16个示范项目,对16个示范项目一期的时候5个城市大家都知道有了,这里边可以说很刻意涵盖云计算各个领域,有网站、电子商务、金融支付、城市云计算中心,城市云计算中心叫做我们曙光无锡城市云计算中心,和国家超算深圳云计算中心,都是16个试点项目之一。也有我们所说游戏,像盛大等等这个领域,他孕育了一个非常刻意的安排,就希望每个领域有一个试点项目和应用,推动成熟起来之后来探索和摸索未来云计算的发展模式,来提炼一些标准。

  记者:现在政府苦恼的一个事,政府对云计算有很多投资,有一些厂商它的产品和技术实际上只是虚拟化的一个非常初步的一个东西,但他也拿这个东西来套取政府的投资,这个让政府很苦恼。现在有什么方法可以解决吗?

  聂华:现在政府对云计算涵盖是非常广的概念,这个过程当中政府在这个建设当中投资叫什么是云计算可能政府也没有搞得特别清楚。这时候往往是说很多厂商说我来做云计算,政府表现是很大力支持的态度,要地有地,要钱可能有钱,要政策有政策。恰恰是这种政府主动一些产业引导的政策,让很多厂商出现了刚才您所说的,既然政府给地,我就要地,政府给钱我想办法要钱。实际上也发现有些云计算也变成了有的城市云计算做的很简单,几平方公里,盖完楼,吸引云计算企业入驻,政府好象职责没有,实际已经把云计算变成云房地产,这个是开玩笑。我想这个都是一个过程。随着时间推移总会大浪淘沙,现在可以看到我也特别研究发改委的项目安排,每一个项目安排有针对性和刻意安排不同点和不同效应,国家也在做一些工作。随着时间推移,总会有一些我们至少第一会把云房地产淘汰,这点是肯定的。

  记者:云计算哪些标准是不可或缺的?

  聂华:这个我曾经很多人包括曙光自己,像一些做企业像融资等等一些工作的时候,都面临一个问题到底什么是云计算?你查了很多定义,真正的云计算最终他仍然是围绕着一个服务提供,甚至服务提供广义云计算,已经超出IT服务提供,只要是服务提供就可以做云计算。既然是这个云计算的含义这么广,服务有的有请求,有人给他做响应就是服务。提供了服务就是云计算。你可以想象一下,真正未来得云计算是不是云计算谁说了算?我觉得只有两部分说了算,一部分是用他的人,等于是接受服务的人,他觉得服务很便捷、方便。你可以看到大的互联网公司或者是无论是百度、谷歌、亚马逊、淘宝,大家很自然把他理解成云计算。因为他在响应大量服务,让他感觉这个服务近乎免费的。

  第二我觉得真正能说了算或者在个过程当中就是实实在在的运营云计算的人,为什么运营云计算的人可能说了算呢?因为只有运营的人大会关心我到底花多少钱,我的服务能不能支撑下去,我采用什么技术可以降低我的成本,采用什么技术可以让我给用户更好的体验,吸引用户。

  我的理解标准未来实际上往往是这两部分人在积极在做。这也可以看到曙光实际上来讲我们在积极听取这些人的意见同时,我们也自己参与到云运营和云服务的时候,我们才会做出好的云计算的平台和技术,满足云计算发展的需要。现阶段来讲我相信连院士都说不出来的标准从我口里说出来不太可能。

  记者:问一下云计算和高性能的关系,有X86服务器,以高性能计算机到底在云计算数据中心能发挥什么作用?当一个业务规模起来要求计算比较快,执行效率高,需要高性能计算机。另外一个问题曙光现在可能大部分是跟政府合作,你们跟运营商合作这块有哪些工作在开展?

  聂华:从两个问题,第一个确确实实很多专家,包括一些很资深专家甚至直白来说高性能计算不能做云计算,为什么这么说?我自己在这个过程当中也反复来试图理解这句话,理解这句话很重要原因是在他看来高性能计算机相对比较强调紧偶合,耦合相对比较紧密,这样才能完成超大规模一个工程计算。云计算的计算机对外比较容易呈现松耦合,耦合比较松散,这样的话其实他可以无所谓。

  我觉得从反面辩证来看,一个超算中心有一台超算主机,为他的用户大量提供计算服务,本身就是云计算。其实你从云计算的定义你找不出任何一点他不符合云计算的定义的特征来。无非他是基于科学计算的云计算。像当时亚马逊以简单数据服务,他后台也是一种大型计算机来支撑,本身他就是云计算的一种。高性能计算机不能说云计算机这种说法是错的,可能高性能计算机不能像做百度搜索引擎的云计算,可能这么说会精确一点。

  第二我从技术角度只发表一个观点,松耦合想做成紧耦合是很难的事。紧耦合想做成松耦合在技术不是技术的问题。因为紧耦合的技术按照松耦合使用这点来讲技术不存在任何障碍。至少是这么一种呈现。为什么这些专家提出这种说法呢?实际上高性能计算机过去发展过程当中由于紧偶合结构设计,开始采用类似专用部件和网络,确确实实在应用于普通或者以互联网为基础的云计算上,他有一定的成本浪费。相当于你这么好一个紧偶合结构当成松耦合来用,这是浪费的。高性能计算当中最流行一个体系结构目前就是通用集群体系结构,属于传统高性能计算当中耦合性最高的,不像传统大型机,一台机器用CPU做到一台主板,这是紧偶合。现在高性能计算由于计算加大,他非常关注能效比的问题,非常关注整个来讲运营服务成本的问题,很多技术上已经和云计算很多东西已经走到一起了。

  你也可以看到今天的高性能计算机由传统计算能力不足到计算能力充足之后,今天要解决的问题就是IO墙,到高吞吐计算机。今天的高性能计算走向怎么进行数据交换,他已经面临数据交换了。这个逻辑来看,很显然,高性能计算机不能做云计算机,我自己认为这个命题是错的,在于我愿意不愿意用高性能计算机或者是构建紧偶合高性能计算机的代价去做云计算应用,云计算非常关注成本,非常关注运营成本。这点来讲,确确实实当他做不同应用的时候有不同的关注点。其实曙光现在在各地建设城市云计算中心,我们在城市云计算的时候也强调异构结构,保留一部分基于高性能计算,对外提供高性能计算服务部分,同时也开始构建适合通用云计算或者我们松耦合分布式系统。包括曙光今天开发技术,如果看曙光技术架构里面,我不知道我们未来推广中心是为高性能计算推广还是为云计算推广。如果是为云计算推广的时候,现在有一系列的内容所谓加速器、能效比比他好。从这个理论来讲反而他在未来云计算里边可能更有前景。

  包括现在看曙光一个大型分布式运行存储系统,就是利用云计算向一些大型基于分布式存储做出来大型聚合IO思想做出来的存储。发现在很多高性能计算领域里面业带来很好的数据存储效果。曙光既面向传统高性能计算,同时更面向今天的云计算。

  如果说我们现在从构建应用角度来讲,刚才提了一个曙光很多城市云计算中心是跟政府一些应用相耦合或者相结合比较紧的。这一点我想在一个城市云计算中心建设初期完全不理解。一个城市云计算建设必须找到一个落脚点,他是基于一个落脚点不断向其他领域扩张和发展。今天实际上很多像我们目前可以看到大型互联网公司,百度、腾讯、盛大、阿里巴巴,他有通用互联网应用有一套构建体系。恰恰政府一些传统基于民生问题或者是政务信息化的问题,他仍然以传统的高成本自建数据中心的方式,曙光城市云计算中心建设第一步可能就要给政府面对第一个难题先解决掉,这样让我们城市云计算中心找到他自己落脚点和支撑点。随着落脚点和支撑点找到之后,无锡城市云计算中心我们建筑面积是3万多平米还是4万多平米,我忘记那个数字了。其实已经开始延伸到非政府服务了,现在来讲一些软件厂商未来面向云计算和他必须要提供自己的一个数据中心,他又没有能力经营和建设数据中心,我们开始朝这个方面构建和布局。

  目前跟运营商的关系,我承认运营商有得天独厚那种优势,其实到了云计算今天,带宽是非常重要的资源。我想运营商必定来讲他在企业化的服务方面来讲,他仍然和其他的企业运营还是有很强的互补的。这就是为什么我们天天谈三网融合,为什么有的院士说互联网和电信网早融合了,一个重要原因就是他两者不是排斥,而是相对很好的互补。广电网和电信网难融合,他们本身是有排斥的。我们看不出来我们和电信运营商有什么排斥,我们不做电话业务也不做其他的通信带宽方面的建设业务,更多是在应用方面互补。

  记者:您刚才也说了建设超算计算中心的话成本非常大,与云计算结合之后,您觉得投资高性能计算他那么大费用是否会产生一些泡沫?或者是现在的应用情况是不是已经到了运营超高计算。高性能与云计算结合之后,运营比以往的高性能计算更为广泛。

  聂华:其实过去拉动高性能计算机往大做的强大动力,有大规模的科学问题没有机器能解决他,所以产生一个要求计算机越做越大的强大动力。包括163机(不确定),很多国家重大工程里边我们该是由于要解决这七个问题所以我们需要大型机器。今天确实另外一个倾向出来了,我们科技部专家论证,我们做亿次计算机,十亿次计算机,这里两声音出来了,一种是既然用不满,我做两个千万亿次比做一个十亿次更省钱。另外还有一个说法,其实很多时候现在我们不能追求这么大一个机器,一年纯电费上亿。现在很难为某一个单一应用去运营它,因为你如果这一台机器运行一个应用,一年别的费用不说,给他的电费一年一个亿。这是两种不同思想都在交锋,你会发现目前现在是什么?当我们到了今天的时候,一个是现在面对我们现在经济是非常的活跃,当你有一台特别大型计算机出现之后,他会拉动整个我们平均计算规模一个提升。像上海超算从来不是一台机器只有一个应用,可能是一台机器给上百个应用,十万亿次规模平均应用的计算量级,平均值在不断增长。这里边来讲高性能计算本身就是一种拉动。

  第二角度来看,我们目前现在也有一种动力在向一些专用计算机做。为什么有这个动力向专用计算机做呢?确确实实针对一些问题对他加速、优化的时候会让整个设计变得更容易。曾经最难偏偏设计计算机就是给上海超算做的。你用什么?什么都用,你关心哪个指标?全都关心。就变成你最难给他设计的,内存及其大,存储及其大,网络及其大,这种应用可能只占1%,他可能用到。一旦他可能用到,他就要求你必须整机做成这样。这点也是我们设计上的浪费,未来我的理解是两条路都会走,一条路是我们机器规模仍然相当大,只有有了大机器才会拉动应用往大了做起到一个强拉动作用。他有这个挑战,过去在256节点做的,没有那么多应用,不会调试什么1000节点做。拉动应用往上上。另外在探索一些领域往一些专用的特定领域做计算机。

  如果谈泡沫的时候,我只表达一个观点,不能为做计算机而做计算机,尤其不为排名而做计算机,我表达为应用做计算机,怎么做都没有问题。

  记者:谈到星云,比如在今年十月份,他的计算能力降低之后很好适用云计算?

  聂华:不叫性能降低,峰值计算能力只是其中一个指标,首先机器变成两台,一台是面向高性能计算,另外一台是面向云计算。面向云计算的机器你会发现他的网络,他的内存、他的存储,他的很多大量的指标都跟过去做的指标不可同日而语。不能说仅仅由于GPU少了峰值降低,这个机器指标降低。我看来这台机器指标提升了。撤掉GPU,大量增加其他部件和其他能力的话,显然峰值会下浮,其他能力是大幅度提升。

  我的感觉是恰恰体现一个理念,要为用计算机而造计算机,这个可能恰恰在体现。深圳超算让我尊重就是他是经济发达的事业单位,以深圳经济实力最有资格做公益计算机,政府管,我来养,进行产业升级就需要这个,你投多少钱也需要。但实际上恰恰是超算中心,他是从目前我们面对这么多超算中心里面大一定要自主运营,将一台机器变成可以产生一个持续运营一个。目前愿望及其强烈,这个我觉得我很尊敬深圳超算中心。

  记者:现在关于曙光6000,服务现在是什么状况?

  聂华:目前其实细说的话整个曙光6000目前在系统当中分成七个公司,这个里面主要计算中心、高性能计算、云计算,里边的工程计算,还有里边几个隔离很多分区,只能说星云占的分区是最大的分区。这个分区划分完全是面向未来应用来做的不同划分,有的区分可能是网络都是独立隔离的。面向应用,面向对安全极高的应用,外网接入是有一套电子接入专网的接入,不和其他混合。这里面构建是围绕应用。
天津产业基地不知道你想知道什么最新的?

  记者:三期。

  聂华:目前我们天津产业基地二期目前产能已经饱和,其实我们在规划整个产能扩容。产能扩容的时候,其实曙光也进入IPO进程。其中有一个募投项目就是我们提出产能扩大。目前现在三期、四期,到底几期,我想更多是随着曙光现在一个企业的健康发展,他会随之而来自然而然配套。你产能不足,自然而然要扩充,不能为了做三期而做三期。现在已经好的现象曙光一期我们大概用了四年的时间整个产能饱和,曙光二期只有两年多的时间产能已经出现饱和。好在说在天津的时候规划设计当中还有一些预留,现在也都在积极推进。

  记者:刚才一直提应用和早期关系,我们现在看到如果想让云计算中心应用,他上面很多提供应用的服务商,但是他们来前提他们能看到盈利,才能实现硬件整体盈利。苹果应用商店盈利就是上面愤怒小鸟盈利应用起到示范效应。我们看到云计算成功应用是比较成功应用,阿里云是基于他成功一些电子商务的应用。像我们曙光云计算中心现在应用一些主要是电子政务,基本也是属于政府他们为了提高名声,会找一些应用开发商做。专为云计算开发应用比较少,目前一些软件开发商金蝶也都是成功应用。我们怎么能激发让新的开发商专门为云计算而开发这些应用,能看到的前景,使这些应用多起来。

  聂华:我从另外一个角度来讲,先讲一个故事,有一个国际知名软件开发商,他的云计算总监是我的老朋友,他找到我,说曙光建了这么多城市云计算中心,用我软件,我在公司负责云计算。我说怎么用?他说每个中心都装,装了之后我说怎么收费,他说你按季度给我付款。我后来问他,你堂堂一个负责云计算的著名软件企业,你做了半天是卖软件,无非就是分期付款,你还叫做云计算吗。想了半天给他噎住。这是很著名的厂商,还号称全球最大,仅次于微软。这个过程已经出来,我跟他探讨一个问题,公司给你一个叫云计算总监,软件公司云计算我相信有这么几个含义,第一你们老板知道云计算未来潮流。第二我说整个来讲,什么是云计算?肯定是卖服务,你软件怎么变成服务,怎么变成卖服务的。你肯定要有依托的一个平台,肯定要装到某个地方,然后装到某个地方之后谁用,你能分到钱,人家不用你分不到钱。至于用不用,你财务估算测算,说真的就是真的,说假的就是假的。这个过程当中你要相信你的软件大量用户来用,你就会收到钱,你就变成云计算的。如果你不相信你的软件大量用户来用,你别来找我,我没钱给你。就在绕这个故事,可以看到至少几个趋势,没有哪个大型厂商不想云计算,当云计算到来的时候他必须依靠大去卖软件。这点来讲,我相信所有软件厂商都有这个动力,无非互相体制是一层皮,不不不是随便脱掉衣服换。我这么好的应用免费装出去了,不收钱潜在用户都弄没了,还是煎熬。我相信每个厂商都有这个努力想做云计算。

  第二恰恰现在很多厂商在推进云计算的时候,我们可以看到这些软件厂商缺乏载体。他要想卖服务,怎么办?买机器装软件,自己找人看着,找人付费,无论是ERP也好。软件厂商你看他有这个能力吗?尤其是中小软件厂商,国外大厂商即便有这个能力,还面临一个中国企业的信息安全数据,涉及到核心经济数据能放到国外那里吗。这些问题谁未来给他解决这些问题,我们可以看到像我们城市云计算中心,尤其是联网的城市云计算中心是非常好的。我们也跟他们洽谈,有政府的公信力在后面支撑,有企业运行模式。在这个过程当中也没有侵犯他们的任何利益,跟他们的业务形成完全的互补。这个东西我相信是时间的问题,曙光走的早一些,曙光建设的东西都有一定的实践周期。到了今天来讲我觉得也不早了,即便早半步这是一个市场可以占领的市场或者是规划的市场一个前提和保障。

  可以看到现在在我们城市云计算,也不全是电子政务,我们经常拿政务讲一些故事。因为政务很多事情都涉及到民生,你拿民生讲故事,能让人更听得懂。比如说城市云计算中心,讲了一个最好的故事最简单的故事,老百姓吃块放心肉都听懂了。其实他是一个物联网的追根溯源,就是肉从出生到最后送到商户,无非就是一个大型数据库应用。这个故事实际上更多的人是可以听得懂的。

  我们两个中心,比如说创新工厂,像我们所谓的一些动漫上面整个来讲计算能力上的渲染租用,也有其他的应用现在逐渐来上。其实更可喜是现在很多一些软件商,当他面对解决这些问题的时候,解决他觉得困难的时候,他在积极找我们联络,在共同商讨一起来探索从卖软件到卖云服务这种一起探索的模式。当然还有一些软件商可能比较大的软件商想我建一个机房有什么难,到武汉要100亩地,盖房子,建中心,也有一些中关村的软件商开始这么做,我也知道。但是专业有分工,当他体系运营不下去的时候,势必需要一个平台促使他从过程传统卖软件改成卖服务的方式转变。

  记者:刚才您提到我们未来“城市云”他们之间相互连接之后的一个前景,我其实很关心,因为我们作为云计算来说如果是每一个云计算中心,我们建立“城市云计算中心”之前都能实现这个调度,整体时间和运营效率各方面会有很大提升。但实际上如果在异地之间进行任务调度,目前看来无论是网络条件一些限制,可能还有一些问题要解决。那么我们之前也了解到了就是我们现在可能在一些云计算中心。我们对未来异地之间能做一个最简单数据互备,还是更高一层次更理想能做到资源真正的异地灵活调度,这方面我们做哪些工作?

  聂华:实际云计算有一个特征,你看见成功的云计算规模是云计算的非常重要的一个特征,你不同规模的云计算实际上对外呈现它的价值,当时互联网还有一个摩尔定律,你这个信息价值是跟信息量的利益方成正比。云计算只有到了一定规模之后,信息规模覆盖或者丰富到一定程度之后,他的威力就出来了,无论是今天的谷歌、百度、亚马逊都有这样的体现。

  从这个角度来看,你刚才说的命题是对的,曙光单个云计算中心,城市云计算中心其实他所发挥得威力和价值远不如和曙光构成一群云计算中心,用网络连接出来对外发挥重要的价值,远不如他那个大。这也是为什么曙光是积极推动更多城市来建设,而且未来网络化的原因。

  有些数据和应用具有很强的属地属性,有些应用不具备属地属性,这点来讲两种应用都有。你如果说即便作为异地的话,异地联网的话你能做的就是一个灾备,灾备也很需要,有地震怎么办,有洪水怎么办,哪个省保证自己不出问题。有些应用具有很强跨城市,我们现在跟中国教育电视台做的教育,给所有教学课件有四川话、湖南话的。他有一个很强的分布,他用传统方式建的时候,自己建立一个网站,全国各地一个一个部署CDN。当曙光这套网络系统弄完之后,可以很轻松放到曙光现在城市云之间的联网体系架构下。

  在这个过程当中,我经常在讲,我说云计算的由来是什么,谁提出的云计算。实际来看云计算现在真正出现的我们认真评估的话,网格是云计算一个主线,这点得承认。另外我觉得包括像搜索引擎,包括虚拟化,从不同角度诠释未来简便、方便性。其实网格当时讲了今天刚才你提的问题,异地联网,完完全全是网格概念一个延展。他的最基本的网格定义就是电网,就是发电厂,所有终端就是插座,你插电就亮了,不知道是哪个发电厂给你供的电。我们也希望各城市联网之后也有这样的模型,你一登录提交一个应用,应用在哪不需要你知道。最简单应用还不是计算应用,而是大家讲的网盘。很多国外城市也有了,你从出生就给你一个邮箱,多少G一辈子免费用。这个领域当中确实是诠释一个很理想的网络。

  对外很多应用我相信就是这样的,像网盘,我给家里重要照片不保密纷纷上网盘,很简单,技术很好处理。仍然还有一个应用,其实现在来讲跨城市,所用所得的模式,仍然用很多技术上难题要克服。也有悲观情绪不能克服,就像人家问我什么计算机最难做,我说上海超算计算机最难做。人家问我云计算哪一点让我感觉最为难,我不知道云计算应用到底是什么。不同的应用未来我相信云计算当概念再普及的时候,不同应用到未来还是有不同分支在向前走。如果说云计算发展未来不明朗的原因仍然是他的定义太庞大了,我的感觉是这样。

  记者:关于高性能计算,现在CPU+GPU这种模式,您对于这个怎么看?

  聂华:我曾经跟AMD的人在讲,先不说英特尔,AMD下一代CPU设计,他把元件给扣掉了,他想CPU要省电,复电元件最耗电,所以给扣掉了。我说大量科学问题都是复电元件,你拿掉怎么办?他说后面有GPU,就是API的系统。GPU做到跟CPU一样好用。两个CPU放到一个主板上,用信息处理用这个,科学计算用那个。这也是描绘一个前景,合久必分,分久必合,过去过于通用CPU设计,今天遇到很多很多瓶颈,其中包括一个能源问题。你现在来讲上海的时候我们曾经论证一台大机器,按照他的通用要求,整个上海千分之四的一台机器制造。这个问题遇到越来越多的困扰。这个情况下,我们就可以看到一些纵合结构对特定应用,这种东西是当仁不二的选择。

  你要说未来怎么样进行应用加速,一个是算法本身优化,一个是给现在变成纵合能处理。我相信现在来讲,纵合到一定程度上一定会普及的。仍然还是这么说,它普及会针对特定应用、特定领域来普及。大量的信息处理,现在我们实际上要讲叫做IO墙,CPU计算部件跟数据之间有一个墙,是很小的门,要打掉。纵合不是解决这个门的大小,拆墙的问题,纵合是弃墙,把仅有的门变成水沟。所以说纵合问题对于一些高数据通量的应用,纵合未来会逐渐输或者是不适合。对于高性能密集应用纵合是很好的选择。

  记者:接着这个问题,您刚才说也是分久必合,合久必分,实际上通用计算需求和现在不同的应用需求这个变化造成的?

  聂华:这里面最重要一个问题是应用对整个体系结构理解能力,像我们当时在70年代的时候别说那小孩不能用计算机,大科学家有几个会用计算机的。那种情况下你再要求他了解计算机的内部体系结构,按他程序模仿计算机内部体系结构然后再设计,这是不可能完成的事情。到了今天计算机普及的时候,现在国家的长江学者,无论哪个城市扔四百万买一台机器,为什么买,因为计算机就是他的计算器,不买就不可能创新。这样的情况下,多少人了解计算机的体系结构,开始让自己的应用适应计算机的。
所以我的一个理解,不是由于之前我们8087设计半天和8086融合,变成纯通用。到了今天通用就不会再拆开,我觉得今天会拆开。

  记者:我们看到你也提到建云计算中心最难的就是上海超算这种,什么时候需要,我们在云计算中心建设的时候也要兼顾各个方面性能。

  聂华:我毫不避讳的说曙光建云计算中心最重要的一个出发点先活下去。活下去就有机会,如果现在考虑这个考虑那个,建设一个云计算中心,自己亏了,企业不允许像事业单位一样长期亏损。我们找到立足点,先让城市云计算中心可经营,可持续。建一个就要活一个。

0
相关文章