2007年下半年,AMD终于推出了代号Barcelona的四核处理器——第三代Opteron处理器目前包括了6款产品,主频从1.7GHz到2.2GHz不等。AMD利用处理器主频和整合内存控制器频率来提供差异化的Opteron产品。
AMD坚持采用“纯四核”设计,它将四个核心整合在单颗硅片,确保核到核之间的通信畅通。
如上图所示,每个核心配置了64K L1数据缓存和64K L1指令缓存(每个周期可以载入两个128位指令,是上一代Opteron处理器的1倍),每个核心还具有512K L2 高速缓存,4个核心还共享容量为2MB的L3高速缓存。
同样,每颗Barcelona处理器中整合了一个128bit内存控制器(两个64bit独立内存通道),相对于前一代Opteron所整合的内存控制器,它做了多个方面的改进:
- 更大的内存缓冲有助于提高吞吐量
- 写突发以最小化读/写迁移,有助于提高吞吐量
- 优化的DRAM页式算法,有助于提高吞吐量
- DRAM预取器可智能地预测和检索主内存所需的数据
- 核心预取器能直接从 L1 高速缓存中获取数据以减少延时和释放 L2 带宽
AMD宽浮点加速器是Barcelona最新加入的功能,其128bit SSE浮点处理单元每个时钟周期内最多可同时执行4个浮点操作,是上一代Opteron处理器的4倍,有利于提升计算密集型应用程序的性能。为了充分发挥128bit SSE浮点处理单元的性能,Barcelona的取指令(Instruction fetch)带宽、数据缓存带宽、内存控制器到缓存带宽相对于上一代Opteron均提升了1倍。
Barcelona处理器支持DDPM(双动态电源管理,Dual Dynamic Power Management)功能,这个功能允许多处理器系统中的处理器乃至多个核心根据负载情况运行在不同的频率和电压下。同时,即便某个处理器或者某个核心处于低速状态,其内存控制器依然可以保持在高速状态下。此外AMD ColCore技术还可以通过关闭处理器中不使用的部分来节电。比如,内存控制器在执行读取操作的时候,可以关闭写电路。这个功能内嵌于处理内部,不需要驱动程序或者BIOS的支持。每次开关的最小单位是一个时钟周期,因此这个功能并不会影响性能。 AMD通过一系列的同功率有关的技术来确保处理器子系统和内存子系统具有更好的能效比。
AMD Virtualization (AMD-V™)技术允许虚拟机直接管理内存,从而尽可能的提升虚拟化的效率,降低不必要的开销。Barcelona中增加了带有快速虚拟化索引功能(Rapid Virtualization Indexing),它可以缩短仲裁时间,使得虚拟机(VMs)之间切换更快,从而在一台服务器上部署更多的虚拟机。
Barcelona处理器因为延迟发布以及后来的TLB问题经历了一些坎坷之后,在08年初站稳了脚跟,而AMD也正面了Barcelona架构存在的一些问题,并在08年末发布了AMD从65nm工艺转向45nm工艺的首款产品:AMD Shanghai,其在架构方面和上一代处理器Barcelona很相似,封装也完全一样,这个特性可以说是Operton一脉相承的,它和Barcelona,和再上一代Opteron完全兼容,因此对于服务器厂商而言推出新产品是非常简单的,只要在原有的产品型号的基础上升级处理器(和主板BIOS)既可达成。这个可以说确实是AMD用户的优势。
概括起来,AMD上海的改进有:
1、45nm沉浸式光刻技术,更低的功耗和更高的主频
2、更大的三级高速缓存,容量达到了6MB(上一代是2MB)
3、内存控制器的更新:支持DDR2-800, 比上一代DDR2-667的内存带宽提高10%。
4、AMD内存优化技术,增强的预取技术,2倍的核心探测带宽
5、支持HyperTransport 3.0总线,带宽增加到17.6GB/s(2.2GHz HT3,预计在2009年春)
6、增强的虚拟化技术:RVI,提升虚拟机切换速度并提供虚拟化迁移功能
从中可以看出,性能的提升和功耗的降低,也是制程转换的直接结果。
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
架构图:Intel Nehalem VS AMD Shanghai
AMD Shanghai VS AMD Barcelona VS Intel Nehalem | |||||
AMD Shanghai | AMD Barcelona | Intel Nehalem | |||
工艺 | 45nm | 65nm | 45nm | ||
晶体管数量 | 7.05亿 | 4.63亿 | 7.31亿 | ||
核心数量 | 4核 | 4核 | 4核 | ||
核心尺寸(宽x高) | 13.7mm x 17.8mm | - | 13.0mm x 18.9mm | ||
核心面积 | 243mm2 | 283mm2 | 246mm2 | ||
每核心面积(不包括L2) | ~15.3mm2 | - | ~24.4mm2 | ||
L2缓存 | 4 x 512KB | 4 x 512 KB | 4 x 256 KB | ||
L2缓存面积 | 4? x 3.75mm2 | - | 4 x 1.78mm2 | ||
L3缓存 | 6MB | 2MB | 8MB | ||
L3缓存面积(不包括Tag) | 45mm2 | - | 45.6mm2 | ||
内存控制器 | 双通道DDR2 533/667/800 双通道DDR3 | 双通道DDR2 533/667 | 三通道DDR3 | ||
IO总线 | 3 x HT1.0 双向带宽8GB/s 未来会支持4x HT3.0 双向带宽17.6GB/s | 3 x HT1.0 双向带宽8GB/s 未来会支持更多数量 | 2 x QPI |