【IT168 特别报道】10月27日-30日,北京,国家会议中心,高性能计算领域的一场大戏即将上演。今年的全国高性能计算学术年会(HPC China 2010)由中国计算机学会高性能计算专业委员会主办、中国软件行业协会数学软件分会协办、北京市科学技术研究院和北京市计算中心承办。作为网络媒体合作伙伴,IT168将对此次盛会进行专题报道【点击专题】。
▲AMD全球副总裁Manju Hegde先生
AMD全球副总裁Manju Hegde先生带来了有关AMD在高性能计算领域的发展策略和新产品信息。他表示,AMD认为高性能计算应该更加看重能效,而不是盲目追求性能。AMD未来的产品策略将全面围绕Fusion,在高性能计算方面通过CPU+GPU的方式让超级计算机拥有更强大的性能。
AMD认为多核+众核才是高性能计算出路
据他介绍,截止2010年6月的全球高性能计算机排行榜TOP500上采用了AMD CPU的超级计算机前五名中有三台(1,3,4),而中国的天河一号则凭借AMD HD4870系列计算卡位列第七(笔者:升级后的天河一号已经弃用AMD计算卡,改用Nvidia Fermi架构GPU的Tesla计算卡,不知这位仁兄作何感想)。Manju先生认为,面向100PFlops计算能力的超级计算机也许很快就会到来,但绝不是单纯x86架构超级计算机可以达到的——因为x86架构处理器的功耗和可管理性在超大规模情况下将变得非常复杂。
在AMD看来,高性能计算的市场非常广阔——中国有进2亿多个在线游戏玩家,而网民平均每秒钟向Facebook这样的社交网站传送800张图片——但是尽管最快的超级计算机已经将速度提升了近500倍,却依旧无法满足现有应用需求的增长。Manju先生表示,只有采用GPU加速才是x86架构超级计算机的出路,在Green500排行榜上的前八名均采用了GPU加速,其能效比是没有采用GPU加速的超级计算机的3倍。
▲HPC的需求旺盛
“推土机”架构的强大
从AMD前阵子公布的数据以及Manju先生的PPT来看,代号“推土机”的新架构处理器采用了模块化设计方式,每个模块内包括两个四管线核心、两个整数调度器、一个浮点调度器、两个128位FMAC单元、共享二级缓存以及预取、解码单元,然后多个模块共享三级缓存。每个模块的两个核心彼此紧密关联,可以高效共享资源,同时还有大量新的能效和电源管理,IPC特性更丰富,栅极/时钟更低。
▲推土机架构是面向可扩展性和计算性能的独特设计
推土机模块的两个核心支持执行两个线程,会共享对延迟要求较高的功能、平缓突发和低效应用、线程间动态分配资源,好处是比两个线程共享一个核心更高的伸缩性和可预测性、多线程负载的吞吐优势、单线程时所有共享资源均可访问、以少得多的面积和功耗提供CMP 80%的性能。
▲两个整数单元和一个浮点计算单元是另类的多线程计算
推土机还在能效、电源管理方面做了大量努力,微架构方面支持资源动态共享、数据转移最小化、大量时钟和电源栅极,并增加了主动电源管理(APM),支持芯片级的核心功耗栅极。根据不同的工作负载,芯片功耗也会实时相应调整,同时给超频留下了空间。从下图我们可以看出九项有关能效的处理器设计。
▲能效是Manju反复强调的AMD传统优势
GPU加速带来更高能效比和性价比
Manju先生列举了GPU性能攀升与功耗/芯片面积的两条曲线,从中可以看出去年下半年发布的HD5800系列GPU将能效比和性价比推到了新的高度(将近翻番)。
在AMD十二核心“马尼库尔”与HD5870 GPU共同计算Linpack的测试中,可以看出在DGEMM运算中GPU将能效比推到2.5GFlops/W,而在Linpack scaling across 4 nodes中其性能推力也达到了70%。(测是均在超微A+ Server 2022TG中测得)
据介绍,采用了与5870相同GPU的FireStream 9370计算卡拥有2.64TFlops计算能力,拥有4GB DDR5显存——而新一代HD6800系列显卡(代号北方群岛)已经发布,但是6800系列并不是为计算打造的GPU,据记者昨天采访AMD高级技术官得到的信息,真正为FireStream和GPU计算打造的GPU是HD 6900系列将在年内发布。
Fusion自然是AMD一直以来的口号和战略。既然GPU在浮点计算中较CPU有更大的优势,因此将其融合入CPU也就理所当然了——AMD最新的APU产品就是CPU与GPU的融合产品。而Manju先生也表示,将CPU与GPU融合会意味着面向融合处理器编程会变得极其复杂——你需要在代码中区分CPU与GPU计算的不同代码以使得并行计算效率最大化。
最后一个PPT很有意思:它概括了单核系统的发展已经几乎达到饱和阶段——技术人员在功耗控制和内核复杂性方面遇到了各种物理瓶颈(漏电导致的发热,流水线长度,代码执行效率等);而在多核系统的发展中,还有一段路可走但也面临着功耗和并行度的挑战;目前位于起始位置的是混合系统的研究和发展,CPU+GPU将是未来。