2008年度评测报告：深入Nehalem微架构-服务器专区

2008年度评测报告：深入Nehalem微架构

作者：IT168评测中心 Lucifer 编辑：盘骏 2008-12-31 09:07 来源：IT168�

The Core Front-End: Loop Stream Detector
处理器核心前端：循环流检测

　　在解码为uop之后Nehalem会将它们都存放在一个叫做uop LSD Buffer的缓存区。在Core 2上，这个LSD Buffer是出现在解码器前方的，Nehalem将其移动到解码器后方，并相对加大了缓冲区的条目。Core 2的LSD缓冲区可以保存18个x86指令而Nehalem可以保存28个uop，从上一页可以知道，大部分x86指令都可以解码为一个uop，少部分可以解码为1~4个uop，因此Nehalem的LSD缓冲区基本上可以相当于保存21~23条x86指令，比Core 2要大上一些。

The Core Front-End: Loop Stream Detector

　　LSD循环流监测器也算包含在解码部分，它的作用是：假如程序使用的循环段（如for..do/do..while等）少于28个uops，那么Nehalem就可以将这个循环保存起来，不再需要重新通过取指单元、分支预测操作，以及解码器，Core 2的LSD放在解码器前方，因此无法省下解码的工作。

　　Nehalem LSD的工作比较像NetBurst架构的Trace Cache，其也是保存uops，作用也是部分地去掉一些严重的循环，不过由于Trace Cache还同时担当着类似于Core/Nehalem架构的Reorder Buffer乱序缓冲区的作用，容量比较大（可以保存12k uops，准确的大小是20KB），因此在cache miss的时候后果严重（特别是在SMT同步多线程之后，miss率加倍的情况下），LSD的小数目设计显然会好得多。不过笔者认为28个uop条目有些少，特别是考虑到SMT技术带来的两条线程都同时使用这个LSD的时候。

　　在LSD之后，Nehalem将会进行Micro-ops Fusion，这也是前端（The Front-End）的最后一个功能，在这些工作都做完之后，uops就可以准备进入执行引擎了。

关注我们