Intel Nehalem-EP处理器首发深度评测-服务器专区

Intel Nehalem-EP处理器首发深度评测

作者：IT168评测中心盘骏刘策编辑：盘骏 2009-03-31 00:00 来源：IT168�

The Memory sub-System: Cache
内存子系统：缓存

　　MOB通过两条128位宽的Load/Store通道与L1D Cache连接，L1D Cache同时通过256位宽的总线与L2连接：L1D Cache是双口（Dual Ported）的。在缓存方面，Nehalem和Core相比具有了一些变化。

绿色部分都属于缓存相关部分

　　Nehalem/Core的L1I Cache（L1指令缓存）和L1D Cache（L1数据缓存）都是32KB，不过Nehalem的L1I Cache从以往的8路集合关联降低到了4路集合关联，L1 DTLB也从以往的256条目降低到64条目（64个小页面TLB，32个大页面TLB），并且L1 DTLB是在两个多线程之间动态共享的（L1 ITLB的小页面部分则是静态分区，也就是64条目每线程，是Core 2每线程128条目的一半；每个线程还具有7个大页面L1I TLB）。

Nehalem TLB架构

　　为什么L1I Cache的集合关联降低了呢？这都是为了降低延迟的缘故。随着现代应用程序对数据容量的要求在加大，需要提升TLB的大小来相应满足（TLB：Translation Lookaside Buffer，旁路转换缓冲，或称为页表缓冲；里面存放的是虚拟地址到物理地址的转换表，供处理器以及具备分页机构的操作系统用来快速定位内存页面；大概很多人知道TLB是因为AMD的处理器TLB Bug事件）。Nehalem采用了较小的L1 TLB附加一层较大的L2 TLB的方法来解决这个问题（512个条目以覆盖足够大的内存区域，它仅用于较小的页面，指令和数据共用，两个线程共享）。

为了降低能耗，Nehalem架构将以往应用的Domino线路更换为Static CMOS线路，并大规模使用了长沟道晶体管技术，速度有所降低，但是能源效率提升了

　　虽然如此，Nehalem L1D Cache的延迟仍然从Core 2的3个时钟周期上升到了4个时钟周期，这是由于线路架构改变的缘故（从Domino更换成Static CMOS，大量使用长沟到晶体管）。类似地L1I Cache乃至L2、L3的延迟都相应地会上升，然而指令缓冲的延迟对性能的影响要比数据严重；每一次取指令都会受到延迟影响，而缓存的延迟则可以通过乱序执行和猜测载入来解决。因此Intel将L1I Cache的集合关联从8路降低到4路，以维持延迟仍然在3个时钟周期。

Nehalem-EP Xeon X5570的缓存结构：64KB L1，256KBL2，8MB共享L3

关注我们