【IT168 专稿】谈到X86服务器或者PC服务器,很多人想到的都是英特尔以及它的至强系列处理器芯片,毕竟X86服务器芯片这块市场十之八九的份额都在英特尔的手中。不过,我们仍然无法,也不应该忘记英特尔的“友商”AMD公司以及它那充满“创新”、“奋斗”精神的皓龙处理器。今年是IT168网站成立十周年,值此之际,IT168服务器频道推出了系列回顾性文章,以梳理服务器这一产业过去的风风雨雨,从而帮助大家对那些如同璀璨明星一样的企业和产品有了一个历史性的认知和把握。本文回顾了AMD皓龙处理器自2003年诞生以来在市场夹缝中求得生存和发展的历程。
皓龙,英文名Opteron,是AMD公司X86服务器处理器芯片系列的品牌名称,也是AMD公司第一款可以执行AMD64指令集(现在一般也称为x86-64)的处理器。皓龙于2003年的4月22日正式发布,其采用的核心代号是SledgeHammer(大锤,也称K8),这一锤砸向的是之前几乎完全被英特尔所垄断的x86服务器和工作站市场。从此,皓龙与至强在市场上形成了“针尖对麦芒”、“不屈不挠”的正面竞争。到2007年9月10日,AMD又发布了基于新一代核心AMD K10(代号Barcelona)的皓龙处理器,而且,跟最早的单核心皓龙不同,它已经是一款拥有4个内核的处理器。
不得不说的三个特性
最早的皓龙处理器之所以在2003、2004年能够打开市场,除了 “直连架构”、“集成内存控制器”等技术给用户带来耳目一新的震撼之外,还得益于AMD对64位计算的准确定位。当时,英特尔的至强处理器执行的是32位计算,而把64位计算托附给了英特尔与惠普联合开发的另一个与IA-32完全不同架构的处理器:安腾,这使得至强和安腾之间存在了一个市场空隙,AMD正好乘虚而入。对皓龙而言,它有个非常重要的特性——就是既可以执行当时大量的x86 32位应用软件,且不会带来性能上的损耗,又可以执行x86-64的64位应用软件。为了应对皓龙的竞争,英特尔还被迫引入了新的IA-32程序仿真器来提高安腾处理器运行32位应用程序的速度,之前,由于安腾完全脱离了IA-32位体系,在运行32位程序时,只能以模拟方式进行,效率很低。事后证明,安腾的这一招并没有起到阻击AMD的作用,毕竟2001年才发布的安腾也是新生事物,在市场上的份额还很小。
其实,当时针对X86架构的64位软件非常少,而且能够执行64位计算的处理器在市场上已经存在多年,几大RISC厂商的处理器Sun SPARC、DEC Alpha、HP PA-RISC、IBM POWER以及SGI MIPS都能够进行64位运算。但正是因为把32位和64位结合在了一起,仅凭这一点,AMD的皓龙处理器就在市场上就获得了“有创新精神”、“保护客户现有和未来投资”的声誉:既能够高性价比地运行现有的广泛的x86软件,又为以后向64位升级提供了途径!市场接受了AMD的这一理念,也从此接受了皓龙。而英特尔直到一年后,2004年才发布了其支持EM64T(兼容32位)的至强处理器,代号Nocona,直接与AMD64相对抗。
除了64位计算,AMD皓龙的另一个全新重要特性就是把内存控制器从原来的北桥芯片组集成到了处理器中,根据不同年代、不同批次,集成的内存控制器所支持的内存类型也从DDR SDRAM发展到了现在的DDR2 SDRAM和未来的DDR3 SDRAM。这一做法完全打破了传统的前端总线架构,不仅降低了内存的访问延迟,也取消了独立的北桥芯片,从而有助于减少成本。
对于多处理器系统(即一块主板上不只一颗处理器)而言,皓龙处理器之间的通信也不再需要经过前端总线,而是通过AMD独创的高速超传输总线(HyperTransport,简称HT)互连,AMD将其称为直连架构。每颗CPU可以访问另一颗处理器的内存,而这对于软件编程人员来说是完全透明的。跟传统的对称多处理(Symmetric multiprocessing,SMP)不同,AMD的多处理系统中,没有供所有CPU共享的内存库,而是每颗CPU都拥有自己的内存。这样一来,皓龙更像是一种NUMA(Non-Uniform Memory Access)架构。为此,皓龙CPU可以直接支持到8路服务器扩展,而无须第三方芯片组或连接技术的支持,比如目前惠普的DL785以及曙光的A950都是支持皓龙的8路服务器。
在许多Benchmark基准测试中,在多处理器扩展方面,皓龙处理器也表现出了对英特尔至强的优势。这是因为,对于过去的至强系统而言,由于是共享前端总线架构,每增加一颗处理器就会给I/O带来压力,而皓龙由于采用的是HT交换式直连架构,随着处理器增加,带宽也随之增加。同时,由于皓龙集成了内存控制器,使得CPU访问本地内存的速度非常快,而相反,至强多处理系统中,处理器与处理器之间以及处理器和内存之间的通信仅依靠共享的两条总线。因此,当至强系统中的CPU数量增加时,对共享总线带宽资源的争抢就会导致计算效率的下降。事实上,英特尔直到6年后,也就是今年的3月份,才在其发布的Nehalem-EP(至强5500)中采用了类似的架构:集成内存控制器,引入快速通道互联总线(QuickPath Interconnec,QPI),完全放弃了传统的共享前端总线(FSB)架构。