服务器 频道

超算新势力 英特尔至强Phi的奇幻之旅

  写在最前面的话

  在动手写这篇文章的时候,有一个名为《少年Pi的奇幻漂流》电影甚为流行,好评如潮。借用这个名字,我将本文的题目命名为《英特尔至强Phi的奇幻之旅》,讲述英特尔至强融核Xeon Phi的发展及产品特性。

  至强融核的出现意味着什么?

  我们还是要从处理器的发展说起。从最早的单核心到现在的多核心,处理器的发展历史经过了一个漫长而又巨大的变革。当我们发现单核心难以满足应用,单纯的提升主频的办法会带来难以解决的功耗、流水线和设计难度时,多核心处理器应运而生。随着英特尔的不断推进,最早的双核心到目前的8核心,英特尔至强系列产品不断完善,最新的至强SandyBridge-EP能够支持8个物理核心,而在SandyBridge和IvyBridge两代产品中,英特尔采用了CPU+GPU的架构模式,通过异构计算实现不同的应用分类,已经具备了众核应用的雏形。

至强融核的出现意味着什么?
Xeon Phi研发之路

  说到英特尔的众核,上图表现了英特尔从2004年计划开发众核产品以来所进行的一系列尝试和探索,随着时间的发展产品的品质和性能也在不断提升和完善。终于在美国SC12大会上,英特尔正是发布了至强融核Xeon Phi,可以说在这一刻Xeon Phi终于修成正果,而应用Xeon Phi协处理器的超级计算机Stampede(来自美国得克萨斯超算中心)也在最新的TOP500榜单中获得了第七名的好成绩。这一切预示着英特尔挺进异构计算的努力成功了,为行业增添了一个新的选择。

${PageNumber}

  至强融核Xeon Phi的规格介绍

至强融核Xeon Phi的规格介绍
Xeon Phi的两款新品——3100和5100系列

  本次发布的至强融核包括了2大系列的产品,分别为3100系列和5100系列,其中5100系列中的5110P已经正式有了详细的参数内容。据悉,Xeon Phi 5110P具备了60个物理核心,240个线程,30MB总缓存,8GB GDDR5内存和320GB/s带宽,最大的峰值性能可以达到1TF(双精度浮点运算),标称TDP为225W。英特尔的官方建议零售价为2649美元/颗。

至强融核Xeon Phi的规格介绍

  Xeon Phi 3100系列的详细产品规格尚未公布,但是从英特尔所提供的数据来看,3100系列的规格相比5100系列要低很多,它只有28.5GB总缓存,6GB GDDR5内存和240GB/s带宽,同样可以实现超过1TF的双精度浮点运算。3100相比5100来说在功耗方面要高出很多,TDP达到了300W,这恐怕是它相比5100来说加装散热风扇的原因。

至强融核Xeon Phi的规格介绍
美国得州超算中心至强融核Xeon Phi的规格介绍
美国得州超算中心所使用的Xeon Phi

  除了两款面向市场的Xeon Phi之外,英特尔还提供了SE10P和SE10X两款面向定制化需求的产品。从上图可以看出,定制化的产品规格与普通产品并不一致,在主频、核心数量、缓存容量方面都略有提升,当然性能也有小幅度上扬。还记得我们在文章最初提到的美国得州超算中心吗?笔者有幸在那里参观的时候看到过众多Xeon Phi的产品,也是Stampede的重要组成部分。

${PageNumber}

 

协处理器究竟能够提升多少倍的性能?
初始的运行模型

  英特尔给出了一个计算的模型,比如我们要运行500个程序,按照传统的方式只能一步步进行,那么运行时间可能是500秒,我们假设这个运行效率是1。

协处理器究竟能够提升多少倍的性能?

  那么通过并行处理,我们可以减少一定量的计算时间,如上图,同样的程序可能运行时间只有400秒,那么我们的效率就提升到了1.25倍。

协处理器究竟能够提升多少倍的性能?

  现在我们继续,将并行应用分配得更小块,速度也就提升得更快,这次同样的任务只耗时350秒,效率提升到了1.4倍。

协处理器究竟能够提升多少倍的性能?

  同理当我们分配得越多,性能也就提升得越大,最多的时候我们可以获得1.7倍的效率。

协处理器究竟能够提升多少倍的性能?

  现在我们换一种方式,同样的时间内,我们不断增加运行的程序数量,也可以达到效率提升的效果。500秒内我们运行了700个程序,效率可以提升至1.4倍。

协处理器究竟能够提升多少倍的性能?

  我们可以将运行程序扩展到1100个,同样的500秒内效率可以提升到2.2倍。

协处理器究竟能够提升多少倍的性能?

  同理,当我们将程序扩展到N个的时候,我们获得的效率提升也无限接近于N倍。

  但是,我们能够随意提升程序数量,达到最大化的性能吗?

协处理器究竟能够提升多少倍的性能?

  英特尔指出,性能的提升并不是无限的,它受到硬件平台的规格制约。从协处理器来说,核心数量、带宽数量都会性能阻力,而在互联方面,至强处理器与至强融核的通讯带宽也成为了瓶颈。从这些角度来说,所谓的几十倍与上百倍的性能提升在目前看来不免有夸大的嫌疑,经过英特尔的测试,Xeon Phi相比至强处理器在并行处理能力上也可以获得2-3倍的性能提升,部分金融应用中这些提升可以达到8-10倍。英特尔认为这样的成绩是比较靠谱的,也是符合硬件运行规律的。

  下面我们看到的将是美国SC12大会上,英特尔展台所提供的至强E5与Xeon Phi性能对比实例,大家可以看到明显的性能变化及加速效果(图片右下角):

至强Phi领衔 英特尔SC12大会新品面面观
至强Phi的运算模型,我们看到的黄黑色条格这个模型的最好体现
至强E5与至强Phi现场性能对比
两者性能的对比,我们看到的成绩差距是在2-3倍之间 

${PageNumber}

  单纯的协处理器不能运行,性能也不能无限制的提升,无论是英特尔Xeon Phi还是NVIDIA Tesla,必须要有配套的平台和软件才可以,这也是其命名中“协”字的关键所在。因此,即便有了好的产品,还需要进一步的优化,英特尔为Xeon Phi提供了丰富的编译程序和应用。

至强融核Xeon Phi的神奇魔术棒
至强融核Xeon Phi的神奇魔术棒

  Xeon Phi的一大好处就是能够兼容至强处理器的诸多编译程序,比如我们常用的C语言、C++和Fortran都可以支持。从上图中可以看到,无论是OpenACC还是LEO都只是能够支持有限的编译程序,而对于编译人员来需要尽可能多的应用。下面的图标更清晰的表现出英特尔Xeon Phi的编译支持软件,相比普通的开源应用来说更为丰富。

至强融核Xeon Phi的神奇魔术棒

  最重要的一点是,至强处理器和Xeon Phi可以在同一套代码下进行编程,代码支持双平台应用,大大简化了编程人员的工作量。而在语言应用方面,多语言与标准语言的支持,也免去了大部分编程人员再学习的时间。

至强融核Xeon Phi的神奇魔术棒

  从应用来说,目前英特尔Xeon Phi也已经与多家实验室和大学合作,帮助它们在并行计算方面提升速度。

${PageNumber}

  谈到异构计算,传统意义上我们认为只有NVIDIA提供的Tesla作为应用的工具,事实上无论用户是不是出于情愿,他们也别无选择。如今,英特尔Xeon Phi的出现提供给了用户一个新的方向,同时也大大拓宽了异构计算的应用市场。众所周知,英特尔在处理器行业中占据了绝对的主导地位,甚至即便是NVIDIA也认为Xeon Phi的出现对于应用普及大有裨益。

Xeon Phi:我来了,我看到,我征服
Xeon Phi的核心晶圆图

  很多人还在纠结于Xeon Phi的性能,这里我们有一份数据或许能够说明得更好一些。相比普通的至强处理器,Xeon Phi的加速作用非常明显,平均带来了2-3倍的提升,能够帮助并行计算更快的完成。

Xeon Phi:我来了,我看到,我征服

  在另一方面,我们也要看到,毕竟这是英特尔第一次在协处理器上的尝试,Xeon Phi还仅仅是第一代的产品,我们不能要求它过于完美,也不应该与发展多年的Tesla进行比较,这似乎对于Xeon Phi并不公平。可喜的是,英特尔对于Xeon Phi已经有了明确的发展路线图,说明英特尔对于Xeon Phi充满信心。而在谈到至强处理器和Xeon Phi的关系,是否会造成自相残杀的时候,英特尔也曾表示Xeon Phi的定位还是一款提供加速的协处理器,在本质上与至强处理器有着明显的不同,两者应该是协作而不是竞争的关系。

  关于Xeon Phi的发展前景,我们可以听听来自业内专家的评价:

  Xeon Phi从最初的设计到不断的调试,经过用户的测试之后性能的确有所改进,最近一年的变化也非常明显,并且已经和美国得州超算中心进行合作,从这些方面来说Xeon Phi已经有了长足的进步——国际高性能计算咨询委员会主席Gilad Shainer

  Xeon Phi系统具备了可编程性和高性能,从这2个角度来说Xeon Phi相比其他平台来说具备优势。而且英特尔在自身也对于Xeon Phi有了完整的发展规划,已经有实际的路线图出现,这也证明英特尔对此非常具有信心——圣地亚哥超算中心Richard Moore主任

  我们始终认为,Xeon Phi的出现无论对英特尔、对于行业应用还是对于用户选择来说都是一件好事。对于第一代Xeon Phi,我们不应该求全责备,毕竟即便是英特尔这样的国际大厂,也要对产品有不断的升级和完善。未来,Xeon Phi绝对是一款能够与Tesla平起平坐的产品,我们期待着这一天早日到来。

  Xeon Phi的前方道路依然漫长,这就是Xeon Phi的奇幻之旅。

${PageNumber}


至强E5与至强Phi速度对比

  以上是英特尔在SC12大会上展示的视频——至强E5与至强Phi速度对比。这段视频的亮点在于ScaleMP实现了一种将Xeon Phi处理器和主处理器并列为一个SMP系统中共享内存的虚拟模式,通过cat /proc/cpuinfo就可以显示CPU核和MIC的所有内核,对主板内存和KNC卡内存在同一内存空间管理和释放。这是最大的亮点,这在编程上完全等同于SMP多核编程。

  下面是来自英特尔官方的两个视频,主要展示的是Xeon Phi的产品亮点和应用特性:


英特尔至强融核Xeon Phi产品讲解——设计师John Hengeveld
Xeon Phi与高性能计算

0
相关文章