六年磨砺!剑指12核盘点皓龙漫漫征程-服务器专区

六年磨砺!剑指12核盘点皓龙漫漫征程

作者：IT168 孟庆编辑：孟庆 2009-05-11 18:09 来源：IT168�

【IT168 专稿】上周六，AMD在北京庆祝了皓龙处理器问世六周年。活动上，来自AMD中国区、AMD美国总部的高管们就皓龙处理器过去六年取得的成就做了梳理，并进一步透露了即将于六月提前发布的"伊斯坦布尔"六核处理器的相关细节。而整个庆祝活动的高潮，是AMD透露未来三年的服务器平台路线图以及今后的12核、16核处理器，还有传说中的直连架构2.0。

AMD皓龙六周年大会现场

"六年前我们首先采用直连架构，同时兼容32位、64位计算，为x86服务器市场确立了划时代的发展方向。64位计算、多核服务器的发展，就是在那个时候奠定了基础。" AMD全球副总裁，大中华区总经理王正福先生谈到2003年AMD皓龙推出时不无感慨。

AMD全球副总裁，大中华区总经理王正福先生

据悉，AMD皓龙处理器2003年一经推出，就获得了包括IBM、戴尔、SUN、HP在内的全球主要服务器厂商的支持，而类似微软这样的软件巨擘也在第一时间宣布支持皓龙带来的想x86-64位计算。接下去的几年中，皓龙处理器突飞猛进的拓展着市场，截止2006年，皓龙处理器占据了全球市场份额的25.3%，而在北美四路服务器市场上皓龙处理器的份额更是超过了50%。

国内家喻户晓的曙光4000A超级计算机2005年以每秒10万亿次的速度跻身世界超级计算机前十名，而去年末的曙光5000A超级计算机更是用四核皓龙"巴塞罗那"处理器将国内超级计算机的性能提升到每秒200万亿次，再次成功跻身世界前十名。

曙光5000A超级计算机采用了AMD四核皓龙巴塞罗那处理器

而面对过去六年里从无到有的创新，AMD表示自己从未停止过对未来的思考，即将于今年6月提前推出的六核"伊斯坦布尔"就将会在与当前四核处理器功耗相同的情况下，将性能提升30%，而未来AMD将推出的12核心"马尼库尔"Magny-Cours，性能会达到2003年首款皓龙处理器的35倍左右（本文后面部分会详细介绍这款处理器）。

据了解，AMD计划在未来的处理器中采用最新的直连架构2.0技术，使之无论是在虚拟化还是节能方面，都可以应对客户对服务器低功耗、虚拟化以及未来云计算的需求。在对未来两年服务器平台产品的规划上，AMD谈到了其服务器平台的设计理念以及未来包括16核处理器在内的产品（本文后面会谈到），并且就最近发布的低功耗皓龙处理器做了讲解。

AMD副总裁兼服务器及工作站业务总经理Pat Patla先生

可以看出，AMD皓龙推出六年以来，无论是在生态圈建设上还是在新品研发上，都取得了相当的成就。而如今，面对越来越多的内核以及互联网的又一次变革（云计算时代），AMD皓龙处理器似乎迎来了又一个新的拐点。

下面我们先来梳理一下AMD皓龙处理器这六年来是如何引领潮流的。

1、 2003~2004：首次将64位计算引入x86平台

诚然，2003年正是x86-32位计算大行其道的时代，抛开桌面级围绕主频攀升展开的拉锯战不谈，企业级处理器也是一味的以高主频为性能标榜。而经历了2001年的互联网泡沫之后，2003年大量新兴互联网业务以及宽带网络的普及导致服务器市场飞快膨胀。这种膨胀导致服务器对内存容量的需求激增，也意味着传统北桥控制内存开始出现瓶颈。

AMD首先应用了直连架构，有更高速的超传输总线(HyperTransport)，并且将内存控制器集成于处理器中，从而使皓龙在当时的处理器市场异军突起，其内存性能一时间没有对手。而另一方面，作为容量的瓶颈，原有32位系统由于地址总线的原因，只能支持最高3.2GB内存，更高的容量则因为无法分配内存地址而无法使用。为此，业界原先使用昂贵的IA-64等64位方案作为解决，但不可避免遇到成本高和架构专有导致的开发难题。

AMD第一款皓龙处理器率先提出了x86-64混合运算的概念，使得皓龙成为世界上第一款同时支持32位计算的64位x86处理器。这一成就打破了64位计算的"贵族"藩篱，为用户提供了一条无缝衔接32位与64位计算的捷径。因此，皓龙问世之初，微软就宣布支持该处理器，并紧接着推出了x86-64位版本操作系统。而接下来的2004年，有包括Sun、HP、IBM、曙光在内的数千家软硬件厂商针对AMD皓龙处理器做了优化和支持，并推出了相应的服务器。

2、 2005~2006：双核！双核！原生双核的光芒

2005年是摩尔定律寻求新突破的年代，由于半导体工艺和电气原因，处理器攀升主频的脚步不得不停止，于是厂商们将目光转向了多核心处理。AMD适时推出了原生双核皓龙处理器，并且这次是首发之时就被IBM、HP、Sun等众多OEM厂商环绕，纷纷推出采用AMD双核皓龙的服务器和工作站。

早在AMD设计x86-64位计算技术之初，就将双核及多核处理器纳入了设计框架，而其独特的内存控制器集成和超传输总线直连架构更是为了多核之间顺利通讯作出的巧妙预设。当时AMD双核处理器集成了两个拥有独立1MB二级缓存的内核，原生双核工艺，使得两核心间没有沟通延迟，并且延续了原有皓龙处理器的接口设计。这种对原有用户的投资保护一直贯穿于AMD服务器产品的整个路线当中，包括日后出的四核"巴塞罗那"等，是和后续的"上海"，"伊斯坦布尔"等拥有相同平台的（只需升级Bios）。

与当时流行的超线程和高主频单核处理器或是一些"胶水双核"不同，AMD双物理内核可以真正意义上并行处理两个独立的任务，且由于其64位计算的特性，使得该任务无需重新编写代码，只要是x86架构，就可以运行--这在当时意味着来自300多加ISV的1300多种应用软件都可以支持双核皓龙处理器。一时间，业界大呼：64位的时代！双核商用计算来临！

而2005年初，曙光与AMD合作推出的曙光4000A超级计算机以每秒10万亿次的计算速度跻身世界高性能计算前十名，而之后双方联手进行的"中国高性能计算普及万里行"活动则大大加速了HPC应用的普及。可以说，AMD皓龙处理器是今天个人高性能计算的先导。

3、 2007~2008：原生四核！从"巴塞罗那"到"上海"

在人们开始努力接受"双核"概念时，AMD推出了只有68瓦功耗的高能效双核皓龙，从而将处理器性能的衡量再次拔高到效能上来，绿色IT的概念开始萌芽。而与此同时，AMD推出了业界首款原生四核处理器--"巴塞罗那"。

源于F1赛车跑道的名字--巴塞罗那站。AMD无疑是希望其为自己带来骄傲的成绩--除了再次垄断了"真"四核的头衔外，"巴塞罗那"的内存控制器采用了双72位总线，内存传输带宽达到了10.7 GB/s，3个HyperTransport传输总线达到了24GB/s的传输速率。根据第三方的数据测试，在两路平台上，"巴塞罗那"提供的内存带宽比对手的"胶水"四核处理器内存带宽高124％。而AMD官方也直言：直连架构和集成的内存控制器领先了对手至少六年（2003年第一代皓龙就有，而对手直到2009年才在新架构中采用类似设计）。

"巴塞罗那"处理器从推出至今经历了三个版本的升级，而最新一代的"巴塞罗那"处理器有五大特性，首先是独立的动态核心技术，这使得"巴塞罗那"四个内核之间可以根据负载进行频率调节；而CoolCore技术则可以根据工作负载自动调整供电，使处理器内部某些浮点计算单元会休眠；而低功耗的DDR内存控制和双路动态电源管理则可以把核心供电和内存控制器供电分开，减低核心能耗；此外，"巴塞罗那"还引入了"写爆发"的概念，缓存区写满以后再回写内存，从而能够提高内存效率，而独立的每个内核除拥有各自的L2之外，还共同拥有一个L3缓存，可以动态分享三级缓存容量。

此外，"巴塞罗那"的一大优势就是对于虚拟化性能的提升。AMD在"巴塞罗那"中引入了三项技术用于虚拟机优化，一个是设备列表，用于在内存控制器里基于不同的虚拟机引用的页面，从而解决虚拟机对内存访问的安全性问题（意即每个虚拟机拥有自己专属的内存区域，而不是随机分配）。第二个是Tagged TLB，为了解决虚拟机内存列表页的问题，"巴塞罗那"在缓存里为每一个虚拟机分配了独特的任务号，使得内存列表不需要重新建立，大大提高了效率。此外，第三项技术是针对内存地址的，上面说的TLB技术可以对大内存进行很好的管理，但是真正需要搜寻物理地址，还需要一个叫做影子页表的管理层进行维护。

在"巴塞罗那"的大规模应用之后，我们看到很多院校企业采用了这些服务器用作虚拟化部署。而在高性能计算方面，曙光5000A更是采用了数千颗皓龙"巴塞罗那"处理器再次于2008年底进入世界超级计算机排名前十。

相应的，2008年底，AMD又发布了另一款命名为"上海"的四核处理器，这款处理器与"巴塞罗那"最大的不同就是采用了全新的45nm制程工艺，使得性能较"巴塞罗那"提升达35%，而空载时的功耗降低了35%，虚拟化性能提升近40%。

"上海"集成了7.05亿晶体管，拥有共享6M的三级缓存，增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存，内置了4条Hyper Transport总线以支持组建大规模并行系统。此外，"上海"还支持AMD的快速虚拟化索引（RVI）的AMD-V虚拟化技术，同时具备48位物理寻址能力，寻址空间可以达到（256TB）。按照传统，"上海"依然保持了对Socket F（1207）平台的兼容性，用户升级Bios就可以使用该处理器。

与"巴塞罗那"相比，"上海"具备了更高的主频、更大更快的L3缓存、经过改进的内存子系统，内部架构也有一些改进，因此45nm "上海"比起65nm"巴塞罗那"来具有了明显的进步，在环境一切不变的情况下IPC提升幅度约为10%左右，而且同样的价格下可以买到更高的频率。因此，发布之初，超过80家全球OEM合作伙伴就力捧这款处理器，而主流的服务器厂商也第一时间为大型企业和中小企业用户推出了超过25款以上的新系统。

4、2009："伊斯坦布尔"原生六核的艺术

作为AMD拆分工厂之后的第一个合作产品，"伊斯坦布尔"于今年6月提前发布说明了AMD在拆分晶圆厂之后其研发和生产并没有耽误，反而更好的协作了起来。 "伊斯坦布尔"是业界唯一基于直连架构的六核处理器，将采用原生六核45nm工艺制造。

六核心"伊斯坦布尔"在相同频率和能耗的情况下，相比四核会获得30%的性能提升。这除了得益于多出的两个内核外，还要归功于其双通道的内存控制器以及3条超传输总线直连架构。在我们早先推出的独家视频中，国外的工程师演示了基于"伊斯坦布尔"的虚拟化动态迁移，可以看出，AMD-V让"伊斯坦布尔"的虚拟化性能再度提升，而新加入的AMD-P技术则更完美的控制了处理器功耗，配合CoolCore和Smart Fetch技术可以限制内核功耗甚至关闭限制的内核。

此外，"伊斯坦布尔"在沿用了"上海"的6MB L3缓存的同时，还集成了APML(高级平台管理)和Probe Filter（用来降低缓存与多核间通讯的干扰）技术。据"伊斯坦布尔"的设计师Hansde Vries表示，AMD制造的45纳米芯片的体积非常小。两个45纳米的核心只会占到30平方毫米（这还是包括了256K的L1缓存），而相比指点下，Nehalem若是包括了256KL1缓存的话，一个核心就要占到30平方毫米左右。这意味着在同样芯片面积内，AMD可以集中更多的内核。

据悉，AMD已经在本月向所有OEM厂商供货"伊斯坦布尔"用于首批产品的制造，而下月提前发布，除却技术上已经成熟的原因，也是对竞争对手的一记回应。可以看出，AMD已然加快了自己的速度，竞争对手的些许优势也许会维持到今年下半年，但是明年--我们且看AMD用十二核"马尼库尔"重拳出击。

而AMD这一系列动作的源头，要归结于AMD对服务器平台的理解。

5、 AMD眼中的服务器平台与处理器设计

"考虑到服务器市场需求时，我们总会想到六年前的初衷，就是达到系统平衡，即吞吐量、虚拟化、节能、经济高效的平衡。过去六年中由于考虑这样的平衡性，所以设计之初就力图达到最高的利用率、最高的密度，同时达到相应的经济效益（优化服务器性能和经济）。" AMD副总裁兼服务器及工作站业务总经理Pat Patla如是说。

因此可以看出，AMD每每设计一款皓龙处理器，言必称用户利益，行必以高效能低功耗为前提。在绿色IT已经被人们说破嘴皮，人人都觉悟那高昂电费实属不划算的今天，低功耗和每瓦特性能成为了新的衡量处理器性能的指标。而为了节能高效，第一要做到的就是提高处理器利用率，为此AMD的超传输总线直连架构，集成的内存控制器都在以缩短系统内通讯时间的方式提升着整体效率，解决一个个瓶颈。到了下一代皓龙"马尼库尔"处理器时，更是会将直连架构升级到2.0，从而加入4条超传输总线和四通道内存控制器--处理器效率再次获得跳跃式的提升。

而在提高计算密度方面，AMD皓龙处理器凭借更快的I/O速率，使得单位晶体管每秒的有效执行达到了惊人的程度--从而变相的提高了计算密度。宏观上看，2009年末的世界超级计算机排行TOP 500中前十名有7个超级计算机采用的是AMD皓龙处理器，高性能计算选择了皓龙处理器。

AMD-V虚拟化技术和AMD PowerNow！、AMD CoolCore、AMD Smart Fetch technologies这些节能技术大大优化了服务器的虚拟化性能，也大大降低了服务器功耗，一切从经济出发，极大地保护了用户成本。因而可以看到AMD在分析市场之后，发现现在的服务器市场不能简单的划归为四路、双路和单路，而是应该看其应用，寻找重合点。无疑，虚拟化和云计算大潮才是目前服务器乃至数据中心的走向--我们也是第一次见到AMD在其市场策略和产品规划中融入云计算概念--因为它们都会带来更低的能耗和更高的利用率。

AMD皓龙处理器从推出以来的每一项技术，每一个设计细节都是基于"最高的利用率、最高的密度、优化服务器性能、经济高效"四条铁律，而紧接着"伊斯坦布尔"将要推出的，是采用了直连架构2.0的十二核"马尼库尔"。

6、未来：从十二核"马尼库尔"到直连架构2.0

AMD自己没有这样宣传，但是笔者从其竞争对手的逻辑出发，可以得出这样的宣传语：AMD"马尼库尔"是皓龙推出以来最大的一次架构变革。原因有些简单，直连架构的皓龙推出已经六年了，到了"马尼库尔"直连架构升级成了2.0版本。而实际上从AMD官方提供的相对性能提升图表上也可以清楚的看到"马尼库尔"竟然是比"伊斯坦布尔"提升了将近一倍的效率。

下一代十二核皓龙"马尼库尔"将采用直连架构2.0、采用4通道集成内存控制器、具备4条超传输总线，并采用最新的AMD-V 2.0虚拟化技术和AMD-P 2.0节能技术。而"马尼库尔"内核的成倍增加也是得益于其更先进的节能技术，如APML高级处理器电源管理语言等。

对于AMD-V 2.0虚拟化技术，出了拥有AMD-V原有的TLB内存列表、虚拟化快速索引以外，还加入了新的AMD-Vi（IOMMU）技术（输入输出内存管理单元），极大的优化了虚拟机在内存中的状态，使得动态迁移更加方便。

四条超传输总线和四通道内存控制器将内存通道进一步拓宽了2倍，而内存速度则提高了3.3倍，这使得AMD皓龙处理器原先的内存敏感型优势进一步增强，与对手的技术拉开差距。

而在"马尼库尔"之后，Pat Patla先生还透露了2011年AMD皓龙处理器全面迈入32nm制程之后的产品："里斯本"Lisbon、"瓦伦西亚"Valencia和"英特拉格斯"Interlagos。名字同样取自F1赛道，也都基于"推土机"（Bulldozer）架构，但是"里斯本"Lisbon是面向入门级市场的四或六核处理器，而"瓦伦西亚"是面向双路平台的"中低端"八核处理器，"英特拉格斯"则是面向四路乃至八路数据中心节点的"高端"十六核产品。相信32nm制程工艺和直连架构2.0会给"推土机"皓龙处理器带来前所未有的性能飞跃，极大的提升竞争力，也为企业级市场提供了更好的选择。

7、为什么说皓龙EE低功耗处理器适合云计算

这里还要提及一下AMD上月发布的皓龙EE低功耗处理器，这款被AMD认为是最适宜用于云计算的处理器究竟有什么神奇之处呢？其实讲清楚两个方面就可以解答，第一：云计算环境需要什么样的处理器？第二：这款皓龙EE低功耗处理器有什么样的能力？这两个问题的切合度就是它是否适合云计算的答案。

云计算的概念简单来说就是把庞大数据中心的计算资源通过虚拟化的方式整合起来，通过网络动态的按需分配给需要使用的客户。由于至今业界没有一个对它的准确定义，姑且我们先以这个泛泛的"山寨"概念出发。

云计算既然是整合计算资源为一体，这就强调了其整合后的计算能力，而整合前的能力则不一定需要强大。因此我们考虑的就不一定是单一处理器的运算能力，而是考虑两个方面：虚拟化能力和节能。是的，因为整合计算资源需要虚拟化，又因为庞大的数据中心必然要考虑能耗，而处理器恰恰是节能的第一环。

很简洁明了的我们得出了三个基本结论：单个处理器不一定要很强，但要有很强的虚拟化能力和更强的节能效果。

反过来看这款皓龙EE低功耗处理器，AMD本次发布的两款低功耗处理器型号分别为"Opteron 2373 EE"和"Opteron 2377 EE"，主频2.1GHz和2.3GHz，三级缓存均为6MB，支持HT 3.0总线，性能比起"上海"并没有降低多少，而平均功耗只有40W，比"上海"60W的功耗要小1/3，比"巴塞罗那"75W的功耗要小接近一半。这使得该款低功耗处理器相比"巴塞罗那"拥有62%以上的效能提升（每瓦特性能）。

此外，这款AMD最低功耗的x86服务器处理器还支持AMD-V和AMV-P功能，不但使功耗进一步减低，而且还完美的支持了AMD到目前为止的虚拟化技术。

Pat Patla表示："在四核AMD皓龙处理器中加入40WEE低功耗系列，能够帮助客户全方位实现其独特数据中心的最大价值。EE处理器是云计算环境中最理想的处理器，因为云计算环境需要既能具有极高的能源效率，又能同时满足其高处理需求的平衡系统。"

由此可见，AMD在地球日发布的这款低功耗处理器不但切合了时下云计算的火热主题，更表达了AMD对服务器和数据中心未来走向的理解。短短的六年时间，AMD皓龙处理器以突飞猛进的一个又一个新技术和新构思为全球服务器用户提供了优秀的解决方案。而面对当前金融冬天的压力，AMD精准的将自身与虚拟化、节能、云计算三大概念结合在一起，以此为导向设计未来处理器，将业界引领进全新的时代。

关注我们

六年磨砺!剑指12核 盘点皓龙漫漫征程

六年磨砺!剑指12核盘点皓龙漫漫征程