服务器 频道

IBM欢庆100岁生日 市值超微软和谷歌

  【IT168 资讯】6月17日,据外电报道,美国科技业元老企业IBM,周四 (16日) 迎接百岁大寿生日。仅管未闻 IBM 大肆宣传;但今日毎个不经意的科技小动作,如计算机存盘、ATM 提款或在超市结帐刷计算机条形码,都和 IBM 息息相关。

  《美联社》周四指出,今日所有科技业闪亮新星,从搜寻巨头 Google (GOOG-US)、iPhone 和 iPad 制造商苹果 (Apple)(AAPL-US)、最大社交网站脸书 (Facebook) 到网购服务巨擘 Groupon,都欠 IBM 一笔:如果没有商品计算机条形码,Groupon 如何存在?如果没有大型计算机主机,怎么会有 Google?

  IBM 于 1911 年 6 月 16 日成立,当时由三家生产企业或机械用秤及打卡机的公司合并组成,原始公司名称是 Computing Tabulating Recording,于 1924 年改为今日的 International Business Machines (IBM)。

  新公司一开始只有在纽约州的 Endicott 有一座工厂,兼生产奶酪切割机及上班打卡数据读取机,后者正是奠定公司财源的基础。到了 1930 年代,全美有 2600 万的上班族社会安全福利所需出勤纪录,都由 IBM 的卡片追踪。

  在当今 iPod 时代的眼光下,当年这些 IBM 打卡机宛如怪异骨董,但却与现代计算机有相似的设计元素:兼具数据储存及数学运算处理。IBM 之后在早期领导人 Thomas Watson 严格要求下,将其运算机器运用范围一步步扩大;到了二次大战后,又将可观资源投入研发,维持在主机计算机市场的独霸地位。

  如今,将业务重心转往计算机服务支持的 IBM,年营收额达 1000 亿美元左右,在美国“财富 500 (Fortune 500)”大企业排名中居第 18 位,规模是苹果的 2 倍及 Google 的 3 倍大。公司市值也重返 2000 亿美元水平,不仅超越 Google,也于上个月打败了长期伙伴软件巨头微软。

  陈文光谈道,作为国家863计划的高性能计算机评测中心,在为全国近30套大规模系统做测试的过程中,发现了不少的软件和硬件问题。在谈到测试的经验时,陈文光指出,在测试的过程中主要用到了自底向上、逐逐层建模的思想,并提出了应用导向的高性能计算机评测。因为高性能计算机的性能不是用一个数字来表达的,而是一个程序或者一组程序在这个计算机上运行所表现出来的特性。

  HPC评测思想:自底向上、逐层建模发现潜在问题

  陈文光谈道,在测试过程主要用到了的两个评测思想:自底向上、逐层建模。通过这样的测试思想,可以发现中大规模HPC系统中潜在的问题并确定引发问题的环节。

  判断一个系统有没有故障,一般的方法是将实测数据与理论上正常的数据相比较,如果相匹配,则说明没有故障,反之,系统有故障。

  自底向上、逐层建模的思想就是基于这样的理论,从最底层开始,自底向上,通过对每一层建立一个性能模型来预测每一层的正常运行时间,并将其与实测数据相比较,根据比较结果来判断HPC系统是否有问题以及问题所在的层次。

  据陈文光介绍,这些层次自底向上依次包括:最底层点对点通信、集合通信(MPI通信)、小程序(如FT)、实际的应用程序等五个层次。每一层的具体判断过程描述如下:

  最底层的系统体现为点对点的通信、CPU的执行速度、内存、带宽等等,先把这些基本数据测出来。如果这个层次发现一些故障,比如点对点通信有很多节点之间不通,或者虽然通但是速度比其他节点之间慢很多,这就是一个故障。

  在点对点通信之上是集合通信,就是MPI通信,比如广播、O2O等。集合通信可以分解成点对点通信。所以如果知道点对点通信的性能,集合通信的性能也可以推测出来。然后在机器上实测集合通信的性能,与推测出来的性能相比较,如果不匹配,则说明在这两个层次之间的软件和硬件存在问题。

  集合通信之上是一些小程序,例如FT。FT是一个FFT程序,它是经过大运算量的计算,然后进行一次大规模的O2O通信,然后再经过大规模的运算量。进一步把集合通信测出来的数据作为参数输入到性能模型里面去,预测出一个正常的系统下FT的运行时间,通过和实际测试的FT运行时间相比较。如果不匹配,则说明在集合通信、CPU执行往上聚合到实际FT程序之间的软件和硬件可能会有问题。

  小程序之上就是实际的应用程序,包括很多算法、数据,很多通信模式。类似地,通过性能模型预测出应用程序的性能,再与实际测量的数据做比较。

  “应用导向”的高性能计算机评测和选购

  陈文光强调,高性能计算机的性能不是用一个数字来表达的,而是一个程序或者一组程序在这个计算机上运行所表现出来的特性。所以要谈性能,必须说明两个东西:机器和应用,机器和应用合起来才叫性能。

  “所以我们提出来一套方法:用户如果要购买一台计算机,不能只看一个计算机的峰值速度,或者LINPad测试的程序速度。最重要的是要知道这个机器上需要运行哪些应用程序,再在计算机上运行这些应用程序,看性能怎么样”,陈文光在采访中谈道。

  陈文光还指出,对于一些需要运行许多应用的计算系统,不能对所有的应用进行测试。这时可以根据二八原则,选择一些比较重要的用户的比较重要的应用进行测试。

  但是,不是所有的应用可以测试。比如对于一规模特别大的应用,只有购买了机器之后才能运行,这时候可以抽取一部分进行测试,也就是说选择一些有代表性的输入进行评测。

  通过有代表性的输入,能把它的规模减小,使应用能够在一个结点上,或者在少数的结点组成的集群上运行。

  在谈到高性能计算服务器的选型标准时,陈文光表示,高可用性并非是高性能计算选型时需要考虑的指标,因为,高可用性一般都是靠应用来维护的,在系统级的实现高可用容量和时间代价都太高。

  在谈到高性能计算服务器的选型标准时,陈文光表示,高可用性并非是高性能计算选型时需要考虑的指标,因为,高可用性一般都是靠应用来维护的,在系统级的实现高可用容量和时间代价都太高。

  陈文光指出,功耗是比较重要的考虑侧重点,他表示,有一套用功耗测试为基准,以性能功耗比为具体参数的选型的模型。通过测试满载、待机、正常应用等等情况,大致描绘出整个系统功耗的情况,然后计算出性能功耗比值,而这个比值也是高性能计算机选型中十分具备参考价值的。

  在谈到选型时对于服务器技术(如GPU、刀片、1U服务器、胖结点)的考虑时,陈文光指出不同的技术有不同的目标,需要根据具体的情况和需求来选择。例如,如果程序支持GPU,性能功耗比又非常出色,这时可以选择GPU技术;刀片技术的选择与服务器的价格和预算有关,如果相同的价格,当然会选择密度又高、线又少的刀片服务器;是否选择胖结点则完全就是取决于应用,需要很大的内存,需要共享内存编程的方式,就一定需要一个胖结点来做,这是刚性的需求。

  陈文光在采访最后谈道,最近在做一些云计算上做高性能计算的研究,比如怎么基于Amazon EC2云平台做高性能计算,他表示,网络延迟是目前研究过程中最大的困难。他还透露,目前正在试图定义一套高性能计算系统IO的能指标和测试方法。

0
相关文章