服务器 频道

这公司发布的网络甩开竞争对手好几条街

  身为媒体从业者是一件很有意思的事情,特别是做采访。

  尽管在这些采访之前,受访嘉宾已经对可能涉及到的问题有过充分的准备,但是在某些“灵光乍现”的问题上,好多人都会给出意想不到的答案。

  比如几个月前(或者是几周前,我记不清了),我采访某位解决方案的客户。当被问及该解决方案采用何种网络的时候,该客户说了一句让我难忘的话——

  我们不会采用InfiniBand网络,那是一种过时的技术。

  这句话之所以让我震惊,是因为它与我的知识构成不符。虽然从广义上讲,现在采用InfiniBand网络的客户的确不多,但这并不代表这种技术是过时的。如今在HPC乃至于机器学习的领域中,InfiniBand是绝对的主流。

这公司发布的网络甩开竞争对手好几条街

  就好比,你看到街上跑的经常是大众、丰田甚至奇瑞的汽车,但这并不代表玛莎拉蒂是一个过时的品牌。对于那些超跑俱乐部来说,你开个吉利美人豹过去,才是真的搞笑。

  事实的情况与这位受访嘉宾说法相反,现在的InfiniBand不但日子过得不错,而且还不断的推陈出新,其发展速度远快于大家常用的以太网。

  早在之前的文章中,我就曾介绍过Mellanox计划推出的200Gb/s InfiniBand网络交换机(参见:200Gb/s时代来了,你的网络怎能不升级?)。而上周在Mellanox北京办公室,我更是采访到了他们公司全球市场部副总裁——Gilad Shainer。

这公司发布的网络甩开竞争对手好几条街

  我已经记不清这是第几次采访Gilad,但是这个犹太人鹰隼般锐利的眼神给我留下了深刻的印象。我始终记得他吐槽英特尔那句名言——我们都太穷了,所以用不起免费的东西。

  数据分析的“中央集权”与“三权分立”

  似乎从去年开始,吐槽英特尔就成为了采访Mellanox的“小彩蛋”——那时候英特尔正推出自己的Omni-Path技术,以对抗Mellanox赖以成名的InfiniBand网络。

  这次也不例外,虽然演讲的主角是名为Quantum的200Gb/s网络芯片,但英特尔Omni-Path始终是绕不开的话题。

这公司发布的网络甩开竞争对手好几条街

  “在最新公布的TOP 500榜单中,Mellanox的网络依然占据所有前500排名的39%,而在新上榜的超算系统中,选择Mellanox产品的集群数量是竞争对手Omni-Path的近4倍,是另外一个竞争对手Cray系统的5倍”,在提到自身成绩的时候,Gilad毫不讳言竞争对手的存在。

  如果从技术上理解,英特尔与Mellanox的“分歧”在于如何处理数据的负载。对于英特尔来说,既然有着强大的CPU,那么一切都应该交给CPU来完成,将数据从存储、网络等各个部件传输到处理器,是英特尔的典型做法。如果类比的话,英特尔这种理念更类似中国延续几千年的“中央集权”,英文名为“Onload”。

  Mellanox则不然。对于这个犹太公司来说,或许是经历过太多的波折与苦难,所以他们更希望立足于自身解决问题。为此,Mellanox的技术理念是“本地处理”——数据在哪儿,数据分析就在哪儿,这也是Mellanox所倡导的,“新数据中心”概念。

  所以,Mellanox在网卡中植入了处理器甚至FPGA加速器,实现在网卡端的数据处理,而不需要借助于传统的CPU。换句话说,Mellanox实现了计算、存储、网络数据的“三权分立”,并将其称之为“Offload”。

这公司发布的网络甩开竞争对手好几条街

  在我看来,这才是双方的本质区别。一个强调“唯我独尊”,一个强调“独立自主”。听英特尔讲讲,觉得很有道理;看Mellanox的技术,倒也有些领先,我也很难分辨孰是孰非。正如计算机的发展:从几十年前的超大计算机到现在的智能手持设备,从之前的分布式计算到如今强调的超融合系统……

  或许历史就是这样螺旋式发展的,正如《三国演义》开篇提到的那样——分久必合,合久必分。只是,身处时代漩涡中的我们,很难准确判断如今处于何种演进阶段。

  当然,Mellanox必定对于“Offload”的理念深信不疑,它列举了许多实测的数据证明“Offload”在网络加速中的作用,甚至还引用了来自于客户的证言。

  “如果你在Omni-Path上运行应用程序,最好不要应用所有的CPU核心,一定要空余一些核心做Omni-Path的网络通讯;如果你把所有的核心都用来做计算,那么你就会看到一个巨大的性能的一个瓶颈,这是Omni-Path这种Onload网络带来的巨大缺陷”。

这公司发布的网络甩开竞争对手好几条街

  作为对比,Gilad更强调整体拥有成本的降低,他认为这来源于Mellanox IB网络的高效与高性价比。“(因为Offload技术更少占用CPU核心)我们可以使用更少的服务器数量完成同样的任务,所以在性价比方面,我们可以节约非常大的成本。在某个机械制造的应用场景中,我们可以帮助客户降低42%的成本”,Gilad表示。

  不仅如此,Gilad更是提到了最近非常火的是机器学习、人工智能领域:“Mellanox网络能够通过机器学习和人工智能,快速地延伸到物联网、自动驾驶、还有健康、制造、零售等众多行业,都会受益于Mellanox的高速网络互联”。

  如何用三层网络架构支持1280000个计算节点?

  说过了英特尔和Mellanox的恩恩怨怨,但这还只是冰山一角。记得当年英特尔刚推出Omni-Path的时候,其特点之一就是能够支持48个交换机端口,而Mellanox的产品只有36个端口。“我们可以(帮助客户)节省更多的投资成本与数据中心空间”,英特尔的发言人说。

  十年河东,十年河西。如今的Omni-Path还是之前的100G/s,但是竞争对手Mellanox已经升级到了Quantum芯片的200Gb/s的时代。更重要的是,相关的交换机端口已经升级到了40个。

这公司发布的网络甩开竞争对手好几条街

  48对40,英特尔还是有优势呀?其实不然。要知道,Omni-Path只能支持48个100Gb/s的端口,但是Quantum的交换机能够支持40个200Gb/s的端口。更重要的是,通过Mellanox特定的线缆,这些200Gb/s的端口还可以“分身”为2个100Gb/s的端口……(貌似有点绕哈)

  也就是说,在同样100Gb/s的前提下,Omni-Path能够支持48个端口,而Quantum能够支持80个端口,这个数字差距就蛮大的了。

  “我们单台机柜式交换机能够支持800个200Gb/s的端口,这是全世界密度最高、速度最快的InfiniBand交换机产品。同时这800个200Gb/s的端口可以分成1600个100Gb/s的端口,一台交换机支持1600个100Gb/s的端口”,Gilad如是说。

这公司发布的网络甩开竞争对手好几条街

  正是得益于这样强悍的扩展能力,用户只需要三层的胖树结构就可以扩展到对于128000个节点的支持,这是非常庞大的数字。要知道,目前最快速度的超级计算机“太湖之光”只有40960个节点,而蝉联6次世界冠军的天河二号节点数量只有16000个。12万8000个节点,这对于当前的超级计算机来说依然是不可企及的数字……

  当然了,绝大部分普通用户并不需要这样高的节点数量,几百个节点是业内常见的状态。对此,Gilad也列举了更为形象的例子——“构建一个400个节点左右规模的集群,我们用的交换机数量是15台,而竞争对手的Omni-Path需要24台交换机;他们的交换机数量是我们的1.6倍,网线是我们的2倍。所以无论是在交换机和网线上面,我们成本的节约的量级都是非常可观的”。

这公司发布的网络甩开竞争对手好几条街

  更快的传输速度、更高的网络带宽、更强的扩展能力,这将是Mellanox全新一代200Gb/s HDR产品带来的全新体验,正如Gilad所描述的那样——“高性能、高效、高可扩展性的新一代智能网络产品”。

  据悉,Mellanox200Gb/s HDR解决方案将在2017年大规模供货。

0
相关文章