【IT168专稿】GPU技术大会2011亚洲站(GTC Asia 2011)于2011年12月14-15日在北京国家会议中心隆重召开,这也是GPU技术大会首次登陆中国。作为业界最大的技术盛会,GPU技术大会旨在分享GPU给科学和计算带来的变革性的影响。在GPU技术大会亚洲站上,来自顶尖科学研究机构的科学家们将参与到一系列演讲、技术分享会、辅导课程、小组论坛和圆桌讨论会中,探讨GPU如何改变高性能计算(HPC)行业以及GPU如何帮助加速解决学者、研究人员、科学家以及开发者所面临的复杂计算难题。
GPU技术大会作为一场引领最新GPU相关科学研究、行业应用与创新技术的大会选在中国举办的原因是显而易见的,中国已成为全世界高性能计算的中心,在全球前500最快的超级计算机排名中,仅前五名中就占据两席,分别为来自国防科技大学的天河1A号和曙光公司所研发的星云(Nebulae),而且中国的研究学者及业界精英都已经意识到GPU在包括石油和天然气、分子模拟、核聚变研究、流体动力学等在内的各种研究领域和行业应用中无可比拟的强大计算能力。
异构计算模式的崛起
全球高性能计算 (HPC) 市场早已进入千万亿次级时代,在这个十年结束之前, 有望大踏步迈进百亿亿次级时代,这种趋势是全球性的。IDC预计,由于百亿亿次级计算将极大地推动科学进步,增加各国的工业和经济竞争力,改善人们的生活品质,因此美国、欧盟、日本、中国、俄罗斯将在该领域展开激烈竞争,以便享受这种技术带来的巨大实惠。
但是很多高性能计算专家也指出,只有在现有技术和手段的基础上进行革命性的开拓,我们才能从容应对一系列巨大的挑战,从而在这个有限的时间框架内实现合理的百亿亿次级性能。这些挑战包括但不限于以下内容:
系统成本 (每秒浮点运算次数/美元)。二十年前,全球领先的高性能计算机构花两千五百万至三千万美元,用于购置当时最强大的超级计算机。如今购买千万亿次级超级计算机的费用通常在一亿美元以上,人们欢迎任何可增加每秒浮点运算次数/美元比值的技术。
应用性能 (时间/解决方案)。随着高性能计算用户日益为自己的应用寻求更新、更大的超级计算机系统,这种长期挑战也会随之增大。由于时钟频率难以继续增加,未来的性能提升潜力几乎都来自于日益增加的并行性,这进而导致了对百亿亿次级计算的巨大并行性需求。1 GHz 主频的机器每个时钟周期将需要执行十亿次独立运算。随着时间的推移,人们有望用这种级别的系统解决一些重大科学难题。此外,一些缺乏必要的单次运行并发性的其他问题就可以利用百亿亿次级计算系统来进行整体运算。比如,在解析每次运行操作时,汽车设计工程师们已经显著增加了参数运行的数量,这会发生于设计周期的分配阶段。
空间和计算密度需求 (每秒浮点运算次数/平方英尺)。一项全球性的 IDC 研究表明,绝大多数高性能计算机构都极大地受限于数据中心的占地面积。其中三分之二的机构正在计划扩建或修建新的高性能计算数据中心。其中一半的机构已规划,或已开始将高性能计算资源分布到多个地点。
计算和数据移动的能源成本 (每秒浮点运算次数/瓦,字节/瓦)。最后但同样很重要的是,功耗已成为一个显著的设计约束,并在总拥有成本中占有巨大的份额。随着电压的增长速度显著下降,当我们按照摩尔定律增加晶体管总数时,能耗不再是一个一成不变的制约因素,这使得如今的处理器受限于能耗,当每一代新的 IC 芯片面世时,情况也日益如此。
这个时代的计算性能主要取决于能源效率,因此系统设计方面的主要挑战就是在不过度降低性能的前提下让处理器和数据移动变得更加节能。高性能计算系统领域的巨大进步对能源效率提出了更高的要求。如今,规模最大的高性能计算数据中心所消耗的电能和一个小城市消耗的电能相当,多个千万亿次级和百亿亿次级数据中心所消耗的电能注定还要更多。尽管能源价格相对于2008年的高位水平已回落了不少,但是相比于历史水平它仍然显著增加了很多。这场“完美风暴”所暴露出来的另一个问题是,人们日益关注碳排放和全球气候变化,而高性能计算数据中心对能耗和冷却的要求却与日俱增。最终,一些规模最大的高性能计算中心会担心当地的电力公司未来可能不会全力满足其需求。其中有一家打算修建一个能耗为250 兆瓦的数据中心,不过它恐怕无法使用电网,而必须要自行修建一个小型核反应堆。
异构计算模式的落地
过去十年间,利用x86 架构处理器具备经济性优势的机群成为高性能计算系统的主流机型,全球高性能计算服务器市场的规模从2000 年初的50 亿美元倍增至2010 年的95 亿美元。主导模式已经变为通过部署包含更多标准x86 处理器内核更大规模的机群来达到更高的峰值性能。
但是从设计角度讲,x86 处理器根本无法良好地处理所有的高性能计算应用,并且散热和功耗在数年前就已经制约了x86 单线程的性能。人们日益认识到,虽然x86 处理器路线图展现了巨大的进步潜力,但是单纯依赖x86处理器的模式无法有效地应对这十年中与实现百亿亿次级计算相关的挑战。
近年来,另一种可应对这些挑战的“异构计算”替代模式在市场上占尽先机。这种新兴模式 通过加速器 (主要是 GPGPU,因此也可称之为图形处理器) 增加了x86中央处理器的效能,这样每种处理器就能专注于自己擅长的工作。图形处理器尤其擅长于处理海量代码和代码片段,体现出来了巨大的数据或线程级并行性。这就使得图形处理器继承了矢量处理器的衣钵,不仅具有更大的规模经济性,同时还更具竞争优势。IDC 研究表明全球个人电脑市场仅对于独立显卡的需求规模就在2010 年达到了大约40 亿美元。
异构计算模式在整个高性能计算市场有着良好的表现。IDC针对高性能计算处理器的2008 年全球研究表明,9% 的高性能计算机构正在已部署的系统内使用除了中央处理器之外的某种形式的加速器技术。IDC 在2010 年实施了一次相同的研究,发现情况已经显著不同。加速器技术已经有了很大的发展。此时,28% 的高性能计算机构已使用了加速器技术,该数据相比于两年前增加了两倍,几乎所有的加速器都是图形处理器。虽然图形处理器仅占异构系统处理器总量的5%,但是其数量仍在不断增加。
异构计算正在对高端高性能计算市场造成最大程度的冲击。图形处理器于 2008 年首次出现在全球超级计算机机构的 500 强榜单中。截至2011年 6月,该榜单上排名前十的系统中有三个已经部署了图形处理器。2011年10 月,美国能源部的Oak Ridge 国家实验室宣布打算将业内知名的美国超级计算机升级为后继系统 (“Titan”), 新系统将部署18000 多颗x86 中央处理器和同样数量的图形处理器,从而实现两至三百亿亿次的峰值性能。此后,德州高级计算中心宣布了建造异构超级计算机 “Stampede”的计划,该计算机在最初阶段将集成峰值性能为两千万亿次的 x86 中央处理器和峰值性能为八千万亿次的MIC 加速器处理器,从而实现一百亿亿次的峰值性能。
这些和其他领先高性能计算机构开始采用异构计算技术意味着图形处理器已经脱离了实验阶段,日益能够胜任一些面向生产的关键任务。国内超级计算情况同样如此。
由国防科技大学研发的天河1号超级计算系统TH-1A于2010年8月研制成功,峰值性能4700万亿次,Linpack实测性能2566万亿次,而其采用的便是CPU+GPU的异构计算模式,并一举拿下2010年11月TOP500强第一的位置。