服务器 频道

性能和节能并举 X86技术推动高密度计算

Advertisement

  【IT168 专稿】在瞬息万变的全球化时代,传统的数据中心正面临许多严峻挑战。之前不计成本的高性能计算时代已经一去不复返了,解决尖端问题的高端系统同样也必须降低成本。现在,采用创新的技术来建设新一代数据中心、改造现有数据中心已经成为IT产业发展的主流。

  为了避免由于服务器爆炸性增加而造成机房面积过快扩大以及随之而剧增的各种运行维护费用,机构数据中心要求大幅度缩小服务器(以及存储设备和网络通信设备)的占地面积、提高计算密度、发展高密度计算。这一方面要求采用新的服务器设计和器件实现更高的计算密度,另一方面要求建设能够支持高密度计算机系统安全稳定运行的数据中心,即高密度计算数据中心。

  如今,X86架构已经成为通用架构,除了个人电脑之外,包括企业应用甚至许多数据中心都在使用X86架  构。可以说,X86架构已经帮助越来越多的企业实现了高效和节能应用。今天我们重要探讨的,就是X86技术如何帮助高密度计算实现了新的飞跃。

  X86架构帮助企业实现节能:从处理器工艺上解决能耗问题

  近十年来,服务器功耗增加了15倍。机架的供电密度也提高了10倍。过去一个机架功耗为2-3 kW,现在却往往高达20-30 kW。这一切都造成机房耗电和内部发热量急剧增加,给解决高密度数据中心供电和散热问题带来了严峻的挑战。为了应对这些挑战,X86处理器在近年来也发生了巨大的变化,这种变化从处理器核心工艺开始。

  说到Tick-Tock这个名词,相信熟悉处理器的人都会明白它在英特尔处理器架构更新中所起到的重要地位。虽然在X86架构产生初期,还没有Tick-Tock这个名词,但是自从Tick-Tock出现之后,X86架构的处理器向着更为明确的地方发展。

从处理器工艺上解决能耗问题

  Tick-Tock战略的实质就是在英特尔处理器发展战略上,每一个嘀嗒代表着2年一次的工艺制程进步。每个Tick-Tock中的“Tick”,代表着工艺的提升、晶体管变小,并在此基础上增强原有的微架构,而Tick-Tock中的“Tock”,则在维持相同工艺的前提下,进行微架构的革新,这样在制程工艺和核心架构的两条提升道路上,总是交替进行,一方面避免了同时革新可能带来的失败风险,同时持续的发展也可以降低研发的周期,并可以对市场造成持续的刺激,并最终提升产品的竞争力。

  从上图来看,从45nm到32nm再到现在的22nm,从Penryn到Nehalem、到Weremere再到最新的Sandy Bridge,英特尔处理器从源头开始实现了节能,包括在晶圆制程上实现了巨大的革新,比如曾经引入的碳晶体管、高K金属栅极及未来22nm采用的3D晶体管等技术。这些技术的引入直接降低了处理器的功耗,进而使得X86处理器在节能方面有了出色的表现。在高密度计算中,如今的Westmere和Sandy Bridge微架构都担当重任,并且成为了降低功耗和发热量的中坚力量。

  高密度数据中心虽然与大多数数据中心一样也必须致力于提高能效,但它们在供电和散热两方面都对机房基础设施的容量规划和电源和制冷设施建设提出了更高的要求。因此,仅仅在硬件上实现节能还远远不够,毕竟硬件的能耗降低是有限的,只有配合相应的软件,才能有效的降低能耗。

Power Control Unit电源管理单元

  从Nehalem处理器开始,英特尔除了在处理器中大规模使用长沟道晶体管技术来降低总漏电之外,还搭载了一个新的单元,来管理所有的核心的工作状态,包括电压、频率等,这个单元的名字就叫作Power Control Unit电源管理单元。它也负责处理器参数的实时监测。空闲的核心和缓存将会被降低供应电压,并降低工作频率,以达到降低功耗、节约能源的目的。


  在需要的情况下,空闲的核心和缓存可以设置为关闭模式以降低耗电。彻底避免这些线路用电是不太可能的,在关闭模式下,SRAM的供电将从0.90V降低到0.36V,提供83%的漏电功耗节约,作为比较,睡眠电压是0.75V,节约为35%。关闭模式是由Power Gate电源阀来实现的:

 

Power Control Unit电源管理单元
Power Control Unit电源管理单元

  为了实现PCU,Nehalem使用了特别的工艺,在第9金属层上实现了非常低导通电阻和非常高关闭电阻及极低晶体管漏电的Power Gate电路。

  随着服务器功耗的提高,传统的数据中心往往不得不把机架大多数容量空置、来避免供电不足和过度发热,这显然不利于高密度数据中心的建设。反之,如果机架过满又很可能会超出机房供电和散热的能力。借助于X86处理器的电源管理单元,可以实现处理器能耗的有效降低,对于高密度数据中心来说具备更多的现实意义。 

  当然,单纯的降低能耗是不可取的,至少这些能耗的降低不能够以牺牲性能为代价。对于高密度数据中心来说,如何能够让现有的服务器发挥更大的效能,成为了数据中心性能优化的重要内容。在英特尔X86处理器的帮助下,这一问题已经得到了妥善的解决。

Turbo Mode自动调节主频

  除了在制程和功能上实现节能之外,性能也是英特尔处理器提升的重要方面。从Nehalem处理器开始,英特尔在Nehalem上实现了一种新的能耗比控制技术:Turbo Mode,或者叫做Turbo Boosting。其作用就是当一些核心处于空闲状态,当Power Gate关闭之后,剩余的核心可以动态提升频率以提升负载的响应能力。这种技术一直延续了下来,成为英特尔处理器的一大闪光点。如今,这个技术已经升级到了2.0版本,性能更为强大。

  并不是所有的处理器都具有Turbo Mode功能,而且也不是所有处理器的Turbo Mode能力都一样。通过分析当前CPU的负载情况,智能地完全关闭一些用不上的核心,把能源留给正在使用的核心,并使它们运行在更高的频率,进一步提升性能;相反,需要多个核心时,动态开启相应的核心,智能调整频率。这样,在不影响CPU的TDP情况下,能把核心工作频率调得更高。
 

  对于数据中心来说,除了节能之外,性能永远是最重要的因素,而且随着X86处理器的发展,越来越多的服务器开始采用最新的X86产品,最新的32nm处理器采用了Sandy Bridge微架构,这也是英特尔X86处理器中的最新架构。在这个新的微架构中,环形总线的引入作为其最大的亮点,而它的存在也帮助处理器实现更高效的处理器能力。

环形总线提升处理效率

  Sandy Bridge使用的是重新设计的核外结构,全新的Ring Bus环形总线更能够较好的展示出Sandy Bridge的真实性能。通过上图大家可以看到,Ring Bus环形总线连接各个处理器核心、LLC缓存(L3缓存)、融合进去的GPU以及System Agent(系统北桥)等部分。

  这个图片或许可以更好的说明问题。新的Ring Bus环形总线由四条独立的环组成,分别是数据环Data Ring、请求环Request Ring、响应环Acknowledge Ring和侦听环Snoop Ring。借助于环形总线,处理器与GPU可以共享LLC缓存,将大幅度提升GPU性能。

  在这个环形总线上,分布着多个Ring Stop,也就是俗称的“站台”。这个“站台”在每个CPU/LLC块上具有两个连接点,而之前使用环形总线的产品,也就是Nehalem-EX环在每个CPU/LLC块上只有一个连接点。

环形总线提升处理效率

  环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级缓存,需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级缓存分割成了若干部分,借助于每个站台,核心可以快速的访问LLC。LLC小容量缓存的延迟优势与核心频率一致性在这里也就体现了出来,这就使得Sandy Bridge的周期相比以往产品有所缩减,从原来的35-40个缩减到了26-31个。同时,由于每个核心与LLC之间可以提供若干带宽,使得Sandy Bridge的整体带宽也提升了4倍。

  借助于X86处理器的高性能与高节能性,特别是英特尔新架构新技术的加入,使得X86架构实现了性能与节能的双飞跃。如今,X86架构处理器已经广泛应用于数据中心中,随着虚拟化和云计算的大规模普及,X86架构必然对高性能计算、高密度计算提供更多的贡献。

0
相关文章