服务器 频道

高通Centriq 2400出货 ARM阵营迎来大跃进

  【IT168 评论】相较于智能手机平台而言,ARM在数据中心的表现则显得黯淡无光。尽管在服务器领域有所尝试,但没有得到市场的广泛认可,技术上也未能得到大规模使用。但鉴于ARM架构处理器能满足虚拟化工作负载的需求,并且在占用空间、性能效率以及性价比上占据优势,因此超大规模的云系统可能会为ARM架构处理器打开机会之门。

  作为HP服务器的主要采购主之一,微软在今年一季度大幅减少了X86服务器的采购,这一举措致使惠普财季报表利润“令人失望”。尽管微软发言人已经阐明,使用ARM架构的Windows服务器仅限于内部使用,目的是通过提醒性能和效率,来保证微软的数据中心可以更好地为消费者创造利益,但大多数人已经敏感的嗅到:价值数百亿美元的服务器市场要变天了。

  可以推测到,微软使用ARM架构处理器来运行服务器,首要原因就是ARM架构处理器便宜且能源消耗低,从而云服务价格就会下架,性价比更高,自然会吸引更多客户,形成一个良性循环。在Open Project Compute峰会上,微软就展示了基于 ARM 芯片的 Windows Server 服务器平台,该平台所搭载的正是高通打造的云服务器芯片Centriq 2400。

  为什么是高通?

  其实高通在数据中心市场的野心早已不是什么秘密了。早在2015年,高通就公布了进军服务器处理器市场的计划,并且找准了定位:首款10纳米服务器处理器。

  CPU的生产是需要经过7个工序的,分别是:硅提纯,切割晶圆,影印,蚀刻,重复、分层,封装,测试。当中的蚀刻工序是CPU生产的重要工作,也是重头技术,简单来说蚀刻就是用激光在硅晶圆制造晶体管的过程,蚀刻这个过程是由光完成的,所以用于蚀刻的光的波长就是该技术提升的关键,它影响着在硅晶圆上蚀刻的最小尺寸,也就是线宽。

  现在半导体工艺上所说的多少nm工艺其实是指线宽,也就是芯片上的最基本功能单位门电路的宽度,因为实际上门电路之间连线的宽度同门电路的宽度相同,所以线宽可以描述制造工艺。缩小线宽意味着晶体管可以做得更小、更密集,而且在相同的芯片复杂程度下可使用更小的晶圆,于是成本降低了。而Centriq 2400采用的10纳米FinFET制程技术,就像高通原本就策划好的,因为Intel似乎并没有短期内发布基于10纳米制程的服务器芯片的计划,7nm更是遥遥无期,这给高通进入服务器领域创造了机会。

  当然,单靠工艺本身不能说明处理器尺寸和处理能力,还有许多其他因素决定10纳米工艺能否转化成对客户的真正价值。另外,在设计定制移动ARM内核方面,高通拥有丰富经验,虽然移动和服务器芯片并不完全相同,但它们毕竟有相通之处。利用先进的生产工艺生产全新定制内容和芯片会带来风险,但也使高通在与英特尔竞争方面比其他ARM芯片厂商拥有更大优势。

  庐山真面目

  美国时间11月8日,高通正式宣布:全球首款也是唯一的10纳米服务器处理器系列——Qualcomm Centriq 2400处理器系列商用出货。

高通Centriq 2400出货 ARM阵营大跃进

  可以说高通公司这一次很可能是找对了时间与切入点。在此之前,关于ARM服务器级芯片市场出现了大量炒作性宣传,但这些泡沫最终难逃破灭的命运。Calxeda公司承诺引领计算新纪元,但最终却未能及时提供64位CPU产品。Applied Micro的X-Gene产品家族已经被整体售出,博通的Vulcan项目事实上也已经失败,更遑论已经决定将未来命运押在x86 Zen架构身上、而非ARM服务器芯片的AMD公司。高通方面则一直相当低调,最终却一举拿出了人们长久以来所期待的解决方案。

  据了解,Centriq 2400处理器系列不出意外的采用三星10纳米FinFET制程,在仅为398 mm2的面积上集成了180亿个晶体管。它包含最高可达48颗的高性能64位单线程内核,主频最高可达2.6 GHz。各个内核由总带宽为250Gbps的双向分段闭合环形总线连接,可避免满负荷情况下性能瓶颈。为了在不同应用场景中达到性能卓越,该设计中每两个内核共享512 KB二级缓存(L2 Cache),并有60 MB统一的三级缓存(L3 Cache)分布在硅片上。

  Centriq 2400系列服务器处理器家族拥有2460、2452、2434三个SKU,区别在于核心数、L3缓存以及热设计功耗。对标Intel Xeon Platinum 8180,Centriq 2460每平方毫米性能的提升48%。

高通Centriq 2400出货 ARM阵营大跃进

  在发布会上,Anand Chandrasekher分享了一组SPECint_rate 2006测试的但通道性能数据,尽管在高配上Centriq 2460以小差距稍逊于英特尔的8180,但在黄金和白银段位上,Centriq 2452和2434都可以与英特尔一较高下。不过要知道,Centriq 2400系列具有更低的功耗,能够在功耗低于120瓦的情况下有如此表现,着实给了云服务提供商一针“兴奋剂”。

高通Centriq 2400出货 ARM阵营大跃进

  在笔者看来,Centriq 2400系列拥有三大特点,而这些是过去五年来一直阻碍着ARM数据中心实现的痛点所在。首先其采用64位ARMv8-A架构,优于当初炒作刚刚兴起时所能实现的32位。其采用10纳米制程工艺,这也是实现一款在性能与功率上具备可行性的服务器级ARM处理器的前提条件。另外,就是超高性价比,定价为1,995美元的48核Qualcomm Centriq 2460处理器可提供4倍以上的性价比。

  更为重要的是,Centriq 2400系列针对通用云工作负载进行了优化设计,其高吞吐量的性能特点非常适合高并发的、云计算环境下的用于提供微服务的原生态应用,而且这些微服务易于进行扩展部署。

  一个强大的CPU还远远不够

  事实上,不仅是芯片性能和效能,ARM架构芯片能否成功进入服务器市场的另一大关键还在于生态。Intel主导服务器市场多年,除了建构起完整的硬件供应链外,对于相对应软件的配合与支持程度,无形中增添后进者的门坎高度。

  一个很简单的例子,企业在更换服务器时,其考虑点除了效能外,最大的关键仍在于换机后软件是否兼容,而多数的软件公司在解决软件兼容问题时,都是以Intel产品做为测试基准,而非ARM架构芯片,当企业采购时,考虑作业的方便性,搭载Intel的服务器当然仍是首选。

  Qualcomm Datacenter Technologies产品管理高级副总裁Americo Lemos在采访时谈到,高通开始研发服务器产品时,最先想到的挑战就是如何打造生态系统,进军服务器市场依靠一个强大的CPU是远远不够的,而是需要设计一款有助于客户基于此进行产品开发的解决方案。事实上,Centriq 2400并不是高通的第一款芯片,在此之前还有一款芯片测试平台,就是用语生态系用的培养。高通将它提供给很多客户与合作伙伴,使他们能够进行软件的切换和优化。

  Americo Lemos表示,高通是通过广阔的视野——包括硬件、软件和设计,去面对整个生态系统。比如Mellanox和赛灵思等软件与硬件的合作伙伴;在系统设计合作伙伴上,高通也有很多ODM/OEM厂商的支持,比如慧与科技(HPE)。因此,高通在服务器领域不断投入,不仅仅是硬件资源,也有技术与工程投入,以促进生态系统发展。

  阿里巴巴基础架构事业群高级总监张伟丰博士表示:“在中国蓬勃发展的Arm服务器生态系统中,我们看到Qualcomm Centriq 2400处理器系列拥有巨大的增长契机。我们对于与Qualcomm Datacenter Technologies携手推动中国的数据中心创新倍感兴奋。”

  高度重视中国市场

  Americo Lemos谈到,中国是一个非常重要的市场。首先,高通是一家全球公司,为全球市场提供产品。第二,中国目前应该是全球第二大服务器市场,也是发展增速最快的市场。因此,高通在中国投入了大量的工作,Americo Lemos本人也花了很多时间在中国市场上,大约有一半的时间都在与中国的合作伙伴和客户工作,提供解决方案以满足他们的需求。

  华芯通的成立就是最好的证明,高通为华芯通给予了大量技术的支持,并且会将Centriq 2400技术许可给华芯通,帮助其研发出适合中国市场的国产化服务器芯片。

  除此之外,在发布会现场的DEMO展示中,一家中国企业——中科睿芯也正式商用发布了人工智能一体机,其搭载多颗Centriq 2400处理器,协载多路从FPGA到GPU的不同框架的AI加速器,睿芯自主研发的SSM3500系列音视频加速器,和睿芯的软件堆栈,形成百千计众核规模异构平台,实现流式高数据并发服务。该平台充分发挥了Centriq 2400的众核优势,以并行处理海量并发视频流。睿芯内部测试显示,相较于x86处理平台,Centriq 2400的图像转换速度提升为3.99倍,图像检测速度提升为1.45倍。  

高通Centriq 2400出货 ARM阵营大跃进

  平心而论,由于ARM和X86最初设计的出发点就不一样,导致在很长的一段时间里,双方都不具备可比性,X86无法做到ARM的功耗,而ARM也不发做到X86的性能。但是随着高通Centriq 2400的商用,使这一切出现了拐点,让两大架构有了同台竞争成为可能,最终能否在数据中心领域取得一席之地,还要等待时间去验证。

0
相关文章