多核挑战、可重构计算和千万亿次-服务器专区

多核挑战、可重构计算和千万亿次

作者：洪钊峰编辑：洪钊峰 2006-11-29 09:15

【IT168 专稿】11月25日至26日，北京汤山假日会议中心，由中国软件行业协会数学软件分会主办的2006年第三届全国高性能算法软件研究开发研讨会在此举行。

在此次会议上，中科院软件所并行计算实验室副主任张云泉副研究员详细剖析了2006年中国HPC TOP100排行榜的特点（该排行榜两周前已经公布，见IT168报道：最新高性能计算机TOP100出炉，专访：高性能计算机评测呼唤新标准）。中科院计算所系统结构研究部主任孙凝晖研究员带来了对千万亿次超级计算机的构想——“HPP：一种千万亿次计算机的体系结构”。清华大学计算机系/国家863高性能计算机评测中心副主任陈文光副教授则对多核处理器的软件挑战给予了精辟的阐述。

总体来看，这次大会亮点比较多，是今年中国高性能计算领域不可多见的一次思想盛宴。从产业的角度来看，多核处理器对软件的挑战、可重构计算以及千万亿次HPC计划是其中的三大亮点，引起了与会代表的广泛关注。

多核处理器技术推动软件发展

多核设计正在为摩尔定律带来新的生命力。目前，英特尔已经推出了双核、四核至强和双核安腾处理器，AMD也推出了双核并即将推出四核皓龙芯片，IBM的Power5+芯片同样是双核设计，针对HPC和图形运算的CELL芯片更是拥有1+8个核，SUN公司的Ultrasparc T1也拥有8个核，Clearspeed(96核)、思科NPU（192核）、RIKEN（512核）更是推出了拥有数十个甚至数百个核的芯片，预计到2020年，千核CPU也会诞生。同时，多核技术在高性能计算中也已获得了广泛应用。在11月份公布的全球最新TOP500超级计算机中，有75套系统采用AMD皓龙双核CPU，31套系统采用了英特尔最新推出的Woodcrest双核至强芯片。

AMD多核皓龙处理器路线图

AMD中国区技术经理刘文卓在会议上透露了AMD未来一段时间内的四核CPU计划，预计明年中AMD将推出代号为Barcelona的四核皓龙芯片，明年下半年推出针对单路、可用于笔记本和台式机的Budapest，08年上半年还会推出代号为“上海”的更新一代四核皓龙处理器，这些产品均可以在实现性能提升的同时保持功耗不变。

然而，多核CPU对软件和应用的影响已经凸现。因为只有在软件能够充分利用多核处理器的特性时，多核CPU优势才能体现出来。当前，多核处理软件总体滞后于硬件，软件开发商面临技术和商业问题，软件界缺少为多核处理器进行高效编程的标准工具，缺少开发并行应用所需的技巧。

清华大学计算机系/国家863计划高性能计算机评测中心副主任陈文光副教授向大会作了《多核处理器的软件挑战》报告，他指出，多内核处理器对软件提出的最大挑战在于并行应用的开发，包括需要开发新的编程模型如X10、Transactional Memory，优化现有的编程模型如MPI和OpenMP，以及解决并行程序调试中的开销问题。

陈文光副教授阐述多内核处理器的软件挑战

陈文光介绍说，多核处理器延续并加重了以往并行计算给软件编程带来的挑战，同时也带来新的机遇。线程级并行、共享缓存、非一致的内存访问开销等特性在以往的SMP、NUMA等体系中已经出现，并不是多核带来的新东西。但在SMP系统中，两个芯片之间的通信会受到系统总线带宽的限制，而多核处理器的内核间的带宽已经大大增加，通信延迟大大减少。为了有效地利用这种优势，就需要开发新的编程模型或对现有的MPI、OpenMP等进行优化。另外，从市场的角度来看，多核的普及使得并行系统的价格门槛大大降低，拥有多处理器（核）系统的用户范围大大扩展，所以需要业界开发很多并行的应用软件。但对于不同层次的软件，从底层的OS和Hypervisors、系统库、中间件一直到最上层的应用软件和框架，多核带来的挑战和问题是不一样的，因此需要区别对待。

陈文光认为，对于科学计算、服务器和桌面系统用户而言，多核带来的影响也会不同。对科学计算而言，部分程序员已经能够运用MPI、OpenMP等进行并行编程，MPI程序也可以在多内核系统上直接执行，同时随着并行系统的普及，OpenMP会更加流行，但如何同时支持多核SMP系统和集群系统是一大挑战。对于服务器用户而言，大部分程序采用多线程（PThread，JAVA Thread或Win32 Threads）模型，原有的多线程程序还可以直接执行，因此影响相对不大。受多核影响最大是桌面系统的用户，由于除了少数应用如图像处理、3D制作，大部分程序都是串行程序，而OpenMP对于大多数桌面系统程序员来说过于复杂，因此对新的高效并行程序设计语言有强烈需求。

随着核心的增多，多核对服务器和HPC应用的挑战也会越来越大。有专家认为，CPU在超过16个核以后，就难以带来更大的性能提升。

可重构计算为HPC加速

在本次会议上，可重构计算是被提得比较多的一个词，AMD、SGI、北极巍、蚬壳星盈等公司代表都介绍了各自相关的可重构计算技术。其实，可重构计算的概念最早可以追溯到上世纪60年代。可重构计算的主要目标是希望通过硬件可编程，来自适应计算任务的需求，以期达到非常好的性能；而且这种硬件结构的变化，能实时地适应计算任务要求的变化。其体系结构可变的特点，很好地适应了实际应用中的多元化需求。可重构计算的底层技术是FPGA（现场可编程门阵列）编程技术。

但多年来，可重构计算技术一直没有在服务器和HPC的主流市场上得到大规模普及。AMD中国区技术经理刘文卓认为，FPGA比较复杂，之所以没有流行起来的原因是因为可重构技术跟具体的应用相关，需要找出具体应用的模式，并将大量的循环运算通过硬件来实现。

AMD Torrenza计划已经赢得众多合作伙伴的支持

会上，刘文卓介绍了AMD的Torrenza计划，该计划允许OEM厂商或用户在AMD架构的基础上，通过在PCI-E插槽中插入HT加速卡、将FPGA集成进北桥芯片组、在CPU插槽安装加速器等多种方式来提升系统的效能，对流媒体、FLOPs、XML、游戏、物理等领域有着显著效用。未来，加速器功能还会被直接集成到皓龙处理器内部。AMD正在进行一项Fusion项目，计划把针对图形处理的GPU处理器核心直接集成到皓龙处理器中，预计产品在2008年左右推出。

在科学计算领域具有重要影响力的SGI公司的HPC应用工程师许正演讲的主题是“通过可重构计算技术让HPC更加强劲，通过互动并行计算平台让HPC更加易用”。跟普通的FPGA技术相比，SGI公司用于FPGA的创新的RASC（可重配置的应用相关计算）技术解决了PCI/PCI-X总线带宽、非一致性缓存系统架构、需在硬件层面进行编程以及用户语言、编译器方面的限制和瓶颈，因此效能更高。如SGI配备两个RASC RC100刀片的Altix 450系统可以将四个FPGA接入一个Altix系统的共享内存中并使其可以通过全内存带宽进行寻址。可以通过软件来对系统中的FPGA进行重新配置，以便在不同的位置及时地加速不同的应用程序，提供的性能改进最多可达100倍。

上海北极巍高性能计算机发展有限公司的代表也介绍说，北极巍可重构并行计算技术把可重构逻辑器件与生俱来的并行运行能力转化为超级的计算能力，在面对尖端领域的复杂并行问题时，可以实现相较于传统超级计算机数十倍甚至数百倍的性能提升。北极巍可重构高性能计算系统由VIVA软件和可重构硬件系统构成。VIVA是北极巍的核心算法开发工具。

蚬壳星盈则把可重构计算运用到了刀片服务器中。蚬壳星盈公司软件开发经理谭怀亮博士介绍说，GT4000超级刀片系统以数据为中心，将系统数据和计算资源分离，再从逻辑上动态组合，实现系统服务、应用数据的可重构及重构时的灵活性。据了解，曙光去年也推出了一款基于可重构技术的专用网卡，另外，在其生物计算专用机曙光4000H上也采用了加速技术。

千万亿次超级计算机暗流涌动

近两年，业界对千万亿次超级计算机的讨论日渐火热。美日两国政府、企业间更是在千万亿次超级计算机的研制上进行了激烈的博弈，目前国际上的千万亿次机计划主要包括日本Riken高性能计算中心和NEC针对专用领域的MDGRAPE-3，用于分析蛋白质分子；IBM RoadRunner和日本的京速计算机计划研制的针对某个领域的通用机；针对高端非主流市场的IBM的蓝色基因/P、CRAY Baker和NEC的ES；以及完全从头创新、推倒重来的NASA HTMT和DARPA HPCS计划。从目前的报道来看，美日两国大多数千万亿次系统将在2009-2011年间集中涌现。

在中国，2005年，国内的企业如曙光、联想等也联合中科院计算所等机构将千万亿次超级计算机的研制提上了议事日程。据我国十一五期间的超级计算机研发规划，预计中国将在2008年6月完成2台100万亿次超级计算机的研发，2010年10月，中国的千万亿次超级计算机也将出炉。

孙凝晖研究员讲解千万亿次超级计算机研发构想

在本次会议上，中科院计算所系统结构研究部主任孙凝晖研究员谈到了美日两国现有的千万亿次HPC计划，以及业界在创新体系结构方面面临的挑战和解决办法。他指出，研制千万亿次超级计算机主要有三种目的——国家安全、科学研究和经济发展。从美国以往的HPC计划来看，美国人研制超级计算机的首要任务是为了解决国家安全问题，日本则是为了重大的科学探索和研究，而中国研发千万亿次机的主要目标应该是促进经济发展。在未来的网格环境中，象使用水电一样的公用计算（Utility Computing）将是主要计算模式，千万亿次机将这种环境中发挥作用。他还透露，中科院计算所正在研究千万亿次机的全新的体系结构——超并行（HPP，Hyper Parallel Processing）架构——一种具有全局地址空间和三级并行的分布式系统。

位列全球TOP500第二位的CRAY红色风暴采用了10880颗AMD皓龙处理器

AMD中国区技术经理刘文卓也透露，CRAY公司在2009年推出的千万亿次系统将继续采用AMD皓龙处理器，并会围绕皓龙开发专有的互连通信架构——SeaStar芯片，来增加系统的可伸缩性和速度性能。目前，安装在美国能源部桑地亚国家实验室的CRAY“红色风暴”超级计算机在最新的TOP500中位列第二，这也是迄今第二个计算性能突破百万亿次的超级计算机，Linpack值为每秒101.4 Tflops/s。

后记：众厂商捧场 HPC成香饽饽

2006年第三届全国高性能算法软件研究开发研讨会与会代表合影

此次会议受到了众多知名企业的关注。在为期两天的会议中，来自HP、AMD、IBM、SGI、曙光、宝德、联想、蚬壳星盈等知名服务器厂商的代表齐集一堂，向大会介绍了各自在HPC领域的进展情况，Intel、浪潮等公司也派代表出席了会议。可见，HPC已经成为IT企业的香饽饽。

HP是今年国内高性能计算机TOP100排行榜上的最大赢家，凭借44%的份额远远领先于IBM（14%）。HP公司Integrity产品经理王镝介绍了HP动成长企业战略和BCS服务器家族，他表示，“比RISC更先进的技术”和“X86的批量”是HP基于安腾处理器的动能服务器的优势所在，可以克服传统RISC架构的局限，开创符合今后20年计算应用需求的新架构。HP还向大会介绍了新一代数据中心和虚拟服务器环境（VSE）的相关内容。IBM代表则介绍了基于Power处理器的P系列产品线及其在TOP500中的表现。

曙光是国内最大的HPC本土制造商，在TOP100中占据25%，仅次于HP。曙光公司高级技术支持工程师袁伟介绍了曙光HPC在产品和技术支持方面的优势。他表示，除了在硬件上加大投入外，曙光在用户应用支持方面也做了大量工作，成立了计算规模达3万亿次的高性能计算机用户体验中心，同时还针对不同应用领域成立了多个行业研究团队，以实施服务超越战略。

另外，来自中科院力学所、清华大学、复旦大学、国防科技大学、南开大学、军事医学科学院、中科院中国遥感卫星地面站、上海超级计算中心、北京应用物理与计算数学所、中科院软件所并行计算实验室、中科院计算所、中科院网络信息中心超级计算中心、中科院数学与系统科学院科学与工程计算国家重点实验室、兰州大学信息科学与工程学院、内蒙古大学计算机学院、湘潭大学数学与计算科学学院、国家并行计算机工程中心、中科院空间科学与应用研究中心空间天气学国家重点实验室、中国人民解放军装备指挥技术学院信息装备系、中国科学院大气物理研究所、东方地球物理公司物探技术研究中心、中国地震局地球物理研究所、航天空气动力技术研究院等用户单位的代表则就HPC算法软件和具体应用进行了交流和探讨。

关注我们