【IDF 2011 特别报道】2011英特尔信息技术峰会(Intel Developer Forum, IDF)于4月12至13日在北京国家会议中心举行。这是2007年以来连续第5个年度IDF在中国首发。本届IDF以"智无界,芯跨越"(Compute Continuum and Beyond)为主题,将进一步展示英特尔如何通过从硬件、平台到软件和服务全面的计算解决方案,推进个性化互联网发展;同时面向中国市场如何支持本地合作伙伴创新,助力新一代信息技术等战略性新兴产业发展。
其实每年的IDF,都会引起国内外众多媒体的关注,而Intel也往往借着这样的机会推广自己的最新产品及创意。久而久之,人们总是对于IDF充满了期待。究竟今年的IDF带来了哪些新鲜的东西呢?是E3和E7的最新性能揭秘,还是云计算与云服务的提升,疑惑是VT技术的虚拟化有什么变化呢?下面,我们就来为你一一介绍本届IDF 2011所带来的最新消息。
总体算来,本届IDF主要有以下几个方面的信息:
处理器方面:E3和E7处理面世,分别针对特定领域进行
虚拟化方面:VT-c大幅提高虚拟交付速度
高密度计算方面:微服务器 高密度计算之选
节能减排方面:如何设计能效优化环保服务器
接下来,我们就一一介绍各个方面的特点。首先从服务器的处理器说起,既然说到了处理器,就不得不介绍本次Intel在至强系列中所力推的Sandy Bridge架构产品。
新一代的至强Sandy Bridge处理器给我们带来的一个印象就是采用了环形总线架构,这也是Intel在继Nehalem和Westmere之后继续使用环形总线的架构。
Sandy Bridge核外架构图
Sandy Bridge处理器使用了新的环形总线设计。事实上从之前的Nehalem开始,Intel就转向了融合核心的理念。在Nehalem当中,Intel将内存控制器融入其中,而在接下来的Westmere当中,GPU也作为融入的对象而出现(只是那时候的GPU还仅仅使用的是45nm工艺)。在之前的8核心Nehalem-EX上,我们就看到了环形总线的身影,不过当时的产品在性能和功耗上并没有表现出明显的优势。
本次Sandy Bridge使用的是重新设计的核外结构,全新的Ring Bus环形总线更能够较好的展示出Sandy Bridge的真实性能。通过上图大家可以看到,Ring Bus环形总线连接各个CPU核心、LLC缓存(L3缓存)、融合进去的GPU以及System Agent(系统北桥)等部分。
这个图片或许可以更好的说明问题。新的Ring Bus环形总线由四条独立的环组成,分别是数据环Data Ring、请求环Request Ring、响应环Acknowledge Ring和侦听环Snoop Ring。借助于环形总线,CPU与GPU可以共享LLC缓存,将大幅度提升GPU性能。
在这个环形总线上,分布着多个Ring Stop,也就是俗称的“站台”。这个“站台”在每个CPU/LLC块上具有两个连接点,而之前使用环形总线的产品,也就是Nehalem-EX环在每个CPU/LLC块上只有一个连接点。
环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级缓存,需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级缓存分割成了若干部分,借助于每个站台,核心可以快速的访问LLC。LLC小容量缓存的延迟优势与核心频率一致性在这里也就体现了出来,这就使得Sandy Bridge的周期相比以往产品有所缩减,从原来的35-40个缩减到了26-31个。同时,由于每个核心与LLC之间可以提供若干带宽,使得Sandy Bridge的整体带宽也提升了4倍。
在Sandy Bridge处理器中,最大的改进要算是增加了全新的AVX指令集——Advanced Vector Extensions,高级矢量扩展。这个指令集的增加是X86处理器中的重要内容,不仅仅是提供了更为良好的性能,同时也是对现有指令集的整合与优化。
介绍AVX指令集之前,先要引入一个向量的概念。所谓向量,就是多个标量的组合,通常意味着SIMD(单指令多数据),就是一个指令同时对多个数据进行处理,达到很大的吞吐量。早在1996年,Intel就在X86架构上应用了MMX(多媒体扩展)指令集,那时候还仅仅是64位向量。到了1999年,SSE(流式SIMD扩展)指令集出现了,这时候的向量提升到了128位。
如今,Sandy Bridge的AVX将向量化宽度扩展到了256位,原有的16个128位XMM寄存器扩充为256位的YMM寄存器,可以同时处理8个单精度浮点数和4个双精度浮点数。换句话说,Sandy Bridge的浮点吞吐能力可以达到前代的两倍。不过现在,AVX的256位向量还仅仅能够支持浮点运算。不过AVX的特别之处在于,它可以应用128位的SIMD整数和SIMD浮点路径。
既然我们一直在讨论Sandy Bridge核心,那么不谈到其特色的整合GPU显然是不合适的,虽然对于服务器的应用来说多媒体性能的确是无足轻重。其实我们在文章最初就提到过,作为Tioc-Tock时钟式的重要内容,其实从Wesrtmere 32nm处理器开始,Intel就在处理器中整合了GPU,不过仅仅是将二者封装在一个Die上。因为45nm的GPU与32nm的CPU在制程上不一致,最重要的是关键的内存控制器被放在了45nm的GPU当中,造成了32nm Westmere性能并没有想象的那么出色。而在Tock中,Sandy Bridge的出现解决了这一问题,特别是将GPU整合在了环形总线之内,实现了二者真正的融合。
SandyBridge GPU有自己的电源岛和时钟域,也支持Turbo Boost技术,可以独立加速或降频,并共享三级缓存。显卡驱动会控制访问三级缓存的权限,甚至可以限制GPU使用多少缓存。将图形数据放在缓存里就不用绕道去遥远而“缓慢”的内存了,这对提升性能、降低功耗都大有裨益。
可编程着色硬件被称为EU,包含着色器、核心、执行单元等,可以从多个线程双发射时取指令。内部ISA映射和绝大多数DX10.1 API指令一一对应,架构很像CISC,结果就是有效扩大了EU的宽度,IPC也显著提升。抽象数学运算由EU内的硬件负责,性能得以同步提高。
Intel此前的图形架构中,寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少,剩余寄存器就会分配给其他线程。这样虽能节省核心面积,但也会限制性能,很多时候线程可能会面临没有寄存器可用的尴尬。在芯片组集成时代,每个线程平均64个寄存器,Westmere HD Graphics提高到平均80个,Sandybridge则每个线程固定为120个。
除了Sandy Bridge架构的至强E3,同期发布的还有至强E7处理器。虽然从核心架构来说E7还采用的是老款的Westmere-EX,但是多达10个处理器核心及面向关键业务应用的定位使得它的出现引起了与会厂商与媒体的多重关注。
据介绍,E7处理器采用了英特尔公司领先的32纳米芯片制程工艺,最多可集成10个支持英特尔超线程技术的内核,相比英特尔 至强 7500 系列处理器,其性能提升最多可达40%。同时,它新添的节能特性还能降低芯片上待机部分的功耗。
E7家族包含了18个面向双路、四路和八路服务器的产品型号,经过扩展最多可以支持到256路服务器。E7在性能方面也打破了多项世界纪录:它运行计算密集型应用的性能相比上一代产品提升多达 40%,能在视速度为根本的科研和金融服务等领域提高其关键业务应用的运行速度和精确度。它运行虚拟机3 应用的性能相比前一代产品也提升多达25%,这意味着它拥有业界最高的虚拟化性能表现。
除了我们要介绍的至强处理器,本次IDF 2011还集中探讨了如何优化VMware、Microsoft 和Citrix 虚拟机管理器下的万兆以太网。其中的关键技术源于英特尔的VT-c技术。英特尔VT-c 包括以下两项关键技术(当前所有的英特尔万兆位服务器网卡及选定的英特尔千兆位服务器网卡均可支持):
借助虚拟机设备队列(VMDq)最大限度提高 I/O 吞吐率:在传统服务器虚拟化环境中,VMM 必须对每个单独的数据包进行分类,并将其发送到为其分配的虚拟机。这样会占用大量的处理器周期。而借助 VMDq,该分类功能可由英特尔服务器网卡内的专用硬件来执行,VMM 只需负责将预分类的数据包组发送到适当的客户操作系统。这将减缓 I/O 延迟,使处理器获得更多的可用周期来处理业务应用。英特尔VT-c可将 I/O 吞吐量提高一倍以上,使虚拟化应用达到接近本机的吞吐率。每台服务器将整合更多应用,而 I/O 瓶颈则会更少。
借助虚拟机直接互连(VMDc)大幅提升虚拟化性能:借助PCI-SIG 单根 I/O 虚拟化(SR-IOV)标准,虚拟机直接互连(VMDc)支持虚拟机直接访问网络 I/O 硬件,从而显著提升虚拟性能。如前所述,英特尔VT-d 支持客户操作系统与设备I/O 端口之间的直接通信信道。通过支持每个 I/O 端口的多条直接通信信道,SR-IOV 可对此进行扩展。例如,通过单个英特尔万兆位服务器网卡,可为 10 个客户操作系统中的每个操作系统分配一个受保护的、1 Gb/秒的专用链路。这些直接通信链路绕过了 VMM 交换机,可进一步提升 I/O 性能并减少服务器处理器的负载。
借助在X86虚拟化领域的领先地位,Vmware在迈向云计算的步伐也大大加快。如今从云计算IaaS、PaaS、到SaaS,Vmware在云计算领域已经斩获颇丰。VMware云基础架构及管理解决方案由数据中心与云基础架构、安全产品、基础架构和运营管理三大部分组成。从vSphere到vCloud Director,VMware vShield,再到VMware vCenter,在今天的IDF上,Vmware展示了其全面的云解决方案。
其中,VMware vCenter Server 作为 VMware vCenter 产品系列的基础和业界非常先进的虚拟化管理平台,可帮助实现较高级别的效率、自动化和安全性,并降低运营成本。其丰富的 API 集支持与第三方管理工具进行集成,可实现无缝的端到端数据中心管理。
英特尔中国研究院和英特尔全球技术专家针对全球风起云涌的嵌入式增长势头及中国三网融合等战略性新兴产业的热点技术需求,介绍了英特尔在云计算、物联网、智能交通、个人能源管理、互动与体验等领域的最新研究成果和技术方案。英特尔还明确了将前瞻性研究成果与中国的技术、人才和市场优势相结合,携手合作伙伴共同面向中国战略性新兴产业的发展探索关键技术,同时实现立足中国、推动全球嵌入式创新的目标。
英特尔中国区总裁杨叙
英特尔中国区总裁杨叙、英特尔中国研究院院长方之熙、英特尔研究院副总裁Vida Ilderem、英特尔院士布雷格(Faye Briggs)以及多位英特尔技术专家出席了本次技术前瞻日活动,并发表了精彩演讲。大会还同时展出了包括基于手势的人机交互、"Avatar人脸表情模拟"在内的十多项基于英特尔架构的全新嵌入式研究成果。
英特尔中国区总裁杨叙在开幕辞中指出:"中国当前正大力推进产业结构的升级和经济发展方式的转变。随着国家在'十二五'规划中对战略性新兴产业的进一步推动,三网融合、物联网、云计算等新兴领域已显现生机,这为嵌入式产业的发展带来了前所未有的机遇。我们处在技术、产业和商业模式变革的时代,将英特尔的前瞻性研究成果应用于中国的战略性新兴产业,助力'创新驱动、转型发展',这是我们的价值追求。英特尔将继续加强与本地合作伙伴的合作创新,携手探索,共同跨越,开创个性化'互联计算'愿景下产业发展的新机遇。"
英特尔中国研究院院长方之熙
英特尔中国研究院院长方之熙博士在主题演讲中阐述了未来计算的趋势以及嵌入式技术在推动计算创新中的关键作用。他说道:"嵌入式计算的未来,是创造智能、互联、无所不在的个性化体验。英特尔中国研究院以'立足中国,贡献中国'为使命,在携手合作伙伴共同面向中国战略性新兴产业的发展探索关键技术的同时,也希望充分结合本地的技术、人才优势,立足中国做世界级的嵌入式研究,为全球嵌入式创新源源不断地贡献中国智慧。"
据方之熙博士介绍,英特尔中国研究院自2010年4月定位为"嵌入式系统研究"以来,开展了平台优化、分布计算、感知计算和视觉计算等与三网融合、物联网、云计算等密切相关的技术研究,并已经取得了阶段性成果。英特尔中国研究院正在推进与国内企业、研究机构的创新合作,将前瞻性研究应用于嵌入式新兴产业发展,面向中国嵌入式市场的需求提供针对性的技术解决方案。此前,英特尔中国研究院已在科技部的指导下与清华大学合作成立了"清华大学-英特尔先进移动计算技术研究中心",与无锡市政府合作成立了"英特尔中国并行计算中心",与中国移动合作研发了更加绿色、灵活的C-RAN无线接入网方案。英特尔中国研究院举办的嵌入式研究论坛、三网融合技术研讨会等,也成为推动本地嵌入式技术合作与创新的重要平台。
以英特尔中国研究院为枢纽,英特尔全球其他研究院和技术开发部门也从各个技术角度为嵌入式研究提供了源源不断的支持和动力。英特尔研究院副总裁、集成平台研究实验室总监Vida Ilderem博士在她的主题演讲中展示了基于英特尔架构的美好互联生活蓝图。英特尔驻华院士、架构事业部可扩展服务器架构部门总监布雷格博士也详细展示了如何利用英特尔技术实现云架构的演进及可行性扩展,为三网融合等应用扫除技术障碍。另外,来自英特尔中国及全球的五位技术专家还就物联网、智能交通、个人能源管理、互动与体验以及LTE等热点嵌入式技术进行了专题演讲,展示了英特尔在各个领域的最新研究进展和项目。
英特尔中国研究院是英特尔全球五大研究院之一。在英特尔独特的"技术战略长期规划"、"携手探路"等创新机制和以及开放的研究院文化下,过去一年里英特尔中国研究院已经建立了包括应用、软件、架构、互连以及I/O输入输出等全面的嵌入式系统研究队伍,成为英特尔全球嵌入式创新的核心枢纽。在IDF技术前瞻日活动期间,英特尔独特的创新机制和研究院文化引起了与会者的浓厚兴趣。
早在2009年的IDF大会上,英特尔就提出了微服务器的产品架构,与普通X86服务器相比,体积小,功耗低,价格便宜以及使用方便是微服务器的特点。由于一个机箱能装入更多的服务器,不但为数据中心节省空间,而且较之前拥有更宽敞的空间,也为散热提供了一个有力的外部环境。
之前见到的Intel低功耗微型服务器的样机尺寸非常小巧,所使用的子板尺寸只有一本书那么大,这些子板上目前配用的是一颗1.86GHz 45W功耗的四核Lynnfield处理器,还设置了四个内存插槽。它有点类似于刀片服务器,但尺寸大幅度减少--一个四核心处理器,一个硕大的散热模组和一组内存插槽,当被装入机架时,每个模组可以对应三个SATA 2.5英寸硬盘,这样就能组成很好很强大的一台服务器。
如何如何设计能效优化的环保服务器?历来为众服务器厂商所关注。本届IDF大会上,来自英特尔的技术专家表示,从散热机械问题、风扇转速控制、主板布局、BIOS、到服务器固件、CPU/芯片组特性等等诸多方面均需合理详细规划。
而对众多企业用户而言,如何选购到节能、环保、绿色的服务器也至关重要。以下的几条原则可供参考。
在能源紧张的大环境下,服务器电能利用率、效率的低下与IT架构的新一轮成长之间的矛盾更加突出。细数近些年,服务器节能技术频出,尤其是厂商在不遗余力的推出各种技术解决方案。
1.首先,分析一下,服务器最大的能耗来自哪里。调查显示,最大的损耗来自芯片,单颗至强处理器的功耗在80W、95W,有的达130W(如至强W5580)。芯片厂商一改之前提高运算速度的策略,转而增加内核数。即采用多核的X86芯片技术提升处理能力,从而降低芯片数量的增加。
因此,在短短两年内,我们见证了处理器从4核、过渡到6核、再到8核,直至12核心的飞速发展。同时,低功耗的至强处理器不断被推出,如L5520、L5506(60W)。紧接着,服务器整机生产厂商纷纷推出各种"新鲜"的绿色产品。与以往服务器相比,当前的服务器无论在性能、计算能力都可"以一当十"。当然,能耗有几倍的降低。
不仅如此,在硬盘、风扇、电源等配件上,节能技术屡有突破。电源方面:服务器厂商采用超过"80 Plus Gold"的高效电源。如戴尔采用 Energy Smart(智能节能)技术,可在性能增加的同时降低能耗。节能设计功能包括大小合乎系统需求的高效率电源供应器、更高的系统设计效率、策略导向的电源与散热管理。
风扇方面:IBM 引入了高效率的双段式对转风扇,它比传统的风扇设计更为节能,并互抵消了旋转所产生的单向振动,从而减少了服务器机机身的共振,再配合 IBM 独有的高度计设计,可以保证在海拔高的地区,仍能保证充足的空气流通量。
在硬盘方面,机架服务器更多采用的是HDD 2.5英寸小硬盘,相比3.5寸大硬盘,有近一半电能的节省。不仅如此,SSD(固态硬盘)开始在服务器中亮相,与普通HDD硬盘相比,具有功耗低、稳定性好、运行速度快等特点。在能耗上,SSD硬盘的能耗仅有3~4W,如英特尔X25-E Extreme SSD(工作负载2.4W,闲置状态0.06W),要比HDD(15~17W)低4/5。
2. 虚拟化技术的创新和采用。用虚拟化技术可以把多台服务器集约化成一个虚拟化服务器平台,这大大地提高了服务器的利用效率,也极大降低了能源消耗。虚拟化能够帮助服务器有效逻辑整合,合理控制硬件规模,提高服务器资源利用率,提高服务器CPU运行效率。比如,利用VMware虚拟技术可将每个服务器的平均利用率从7%提高到60%~80%,从而便可降低70%~80%的运营成本。
3. 刀片机的问世使服务器的架构设计向前迈进了一步。相对于传统的机架服务器,刀片服务器的功耗要低得多。这是因为刀片服务器上每个刀片模组共用电源、散热、网络等功能,相较于使用一般机架式服务器可以节省空间与电力成本,乃至空调成本。但多达几十台刀片同时集中在一个机柜中,会出现局部过热的问题,这也带来了通风散热的风险,反而会增大机柜的冷却成本,增加用于制冷上的能耗。因此,刀片的集中化应用,到底利弊如何,站在不同的量化基础上,用户会有不同的取舍。
4. 服务器定制化的兴起,为节能能耗开辟一条新的途径。随着云计算市场的逐步扩大,从构建的角度上来看,许多企业应用者更倾向于购买定制化的英特尔x86服务器。而这种服务器系统往往会在冗余设备,如电源、风扇、存储上下功夫,以此来达到节省电力成本的目标。如像谷歌这样的公司,即便是如果每台服务器减少一个USB端口,所有谷歌服务器就可能减少500万美元的支出。