服务器 频道

听英特尔高管谈谈高性能计算那些事儿

  【IT168 评论】7月20日,英特尔公司在北京召开主题为“至强芯融合 智悉数据之路”的英特尔至强融核应用创新论坛。会上,英特尔携手10余家生态系统合作伙伴以及来自科研探索和机器学习领域的最终用户,通过联合分享基于全新一代英特尔 至强融核处理器的高性能计算平台的优秀解决方案和应用实例,向业界展示英特尔在高性能计算领域领先的技术优势和应用价值,证明了其与合作伙伴紧密协作加速中国本地高性能计算以及机器学习等领域创新进程的重要作用。

  而在大会的间隙,笔者有幸采访到了英特尔数据中心事业部加速计算部门总经理Barry Davis先生,并就KNL和英特尔高性能计算发展的问题进行了采访。

  提问一: 首先,我想问 Davis 先生一个问题,加速计算部门在英特尔是一个什么样的部门?

  Barry Davis:这个问题很好。加速计算部门的职责是制定加速计算方面的战略并开发相关产品,用以优化英特尔 x86 处理器路线图。也就是说,我们负责开发用于加速 x86 的产品。英特尔至强融核处理器就是一个很好的例子。它是一个主机 CPU,但却可以加速数据中心的计算,从而服务于高性能计算、机器学习和高性能数据分析。另一个很好的例子是 FPGA,这种产品为 x86 产品提供了补充,可增强英特尔至强融核处理器产品家族的表现,为机器学习评分、高性能计算、网络和企业应用提供有针对性的性能。这些都是为了更好地优化x86产品路线图。在这里我还想强调一下我们为OEM以及最终用户提供的“定制化”功能。因为每个用户都有自己智慧的想法并期待体现在解决方案中,每个人都希望自己的产品与众不同。我们帮助用户实现这样的可能性。

  提问二: 正如您刚才提到的,贵部门的职责是加速工作负载。但现在市场上出现了一些英特尔的竞争对手包括Power还有ARM,包括在HPC以及加速方面他们也都有自己的解决方案。您如何看待这种竞争?

  Barry Davis:我认为竞争是好事。业内竞争一直是推动我们前进的动力,无论是与AMD,还是与 SPARC 架构,我们都已经竞争很多年了。从历史的角度来看,我们一直都面临着激烈的竞争。目前,我们在这方面仍然做的很好。截至到 2016 年 6 月,最新的全球超级计算机500 强榜单中有 91% 都采用了我们的架构。事实上,在 TOP 500 榜单中,有 99% 的新上榜的超级计算机都是基于英特尔架构的系统。这些数据表明,我们在这个行业中做的非常优秀。我们密切关注竞争对手,他们让我们更加敏锐,让我们做的更好。不仅在 CPU 领域,还包括其他一些领域。英特尔拥有一套完备的解决方案,我们将其称之为英特尔可扩展系统框架(英特尔SSF),其中包含 CPU、Fabric高速互联、内存和存储以及软件。这些优势使得英特尔成为一个更强大的竞争对手。

  提问三: 原来英特尔专注于处理器,于是有存储、网络、加速器等不同领域的合作伙伴。后来英特尔开始做处理器和存储,后来又开始做加速器,最后进军网络市场。我看到的现状是,越来越多的品牌,比如Mellanox、NVIDIA在内的诸多企业都从合作伙伴变成了竞争对手,您如何看待这种竞争关系?您对此有何看法呢?

  Barry Davis:他们现在的确是我们的竞争对手,但行业需要整合。行业需要英特尔将所有解决方案整合在一起,为我们的最终用户提供一个平衡的系统。我对于他们成为我们的竞争对手这件事感到很遗憾,但实际情况是,这完全是一个关乎客户的问题,而不是竞争对手的问题,也不仅仅是英特尔的问题。这关乎到为 OEM 客户、ISV合作伙伴以及最终用户客户提供恰当的解决方案。为了提供恰当的解决方案,我们必须将所有这些功能整合在一起。这样做确实将我们变成了竞争对手,但这就是现实。这关乎性能、功能。通过将 fabric、存储和内存这些方面整合起来,我们创建了一款紧密集成的解决方案,从而为我们的最终用户提供期望之中的性能。竞争是一个自然结果。

  提问四: 我们知道KNL 已经发布,您刚才也提到各条产品线的布局。我想知道对于中国市场,英特尔在加速计算领域的下一步计划是什么?

  Barry Davis:中国市场的重点与我们在全球的其他市场一样,就是将英特尔至强融核处理器应用到三个主要的工作负载之中,即高性能计算、机器学习和高性能数据分析。中国是一个高速增长的市场,也是机器学习领域的领先市场。我记得4、5年前来到中国,就听到有关机器学习和深度学习的讨论,而在那之前我从来没听别人讨论过这些。中国需要HPC 领域的机器学习产品,我们也非常重视中国市场。我想我们现在已经有了这样一套出色的产品满足市场需求。

  提问五: 刚才我们谈了一些竞争关系和其他厂商。我注意到,Mellanox 提出了很多针对英特尔OPA 的言论,包括 offload 和 onload的问题。您对于这些竞争对手的言论是怎么看待的?

  Barry Davis: 对于这个问题,我想说的有很多。首先关于 offload 和 onload 的问题。首先我要说的是,这种说法是在转移事实、避重就轻,这种说法是不真实的。英特尔高速互联架构有一整套卸载引擎,这是第一点。价格、性能和性价比才是对最终用户真正重要的因素,而Mellanox 利用 onload 和 offload 来转移最终用户对这些因素的关注。也就是说,Mellanox无疑是在转移事实、避重就轻。他们的首席执行官在季度盈利报告中表示,“在至少两个单独的指标方面,我们没有在市场中看到英特尔产品的身影。”我们现在回想下2016 年国际超级计算大会,发生了什么呢?在全球超级计算机TOP 500 强榜单中,有 8 个部署英特尔OPA的新系统。那么 Mellanox 有多少呢?7 个 EDR。他们发表这些言论就是为了转移他们现在拥有了真正的竞争对手这一事实。以前他们没有面对过这样的竞争对手。英特尔的OPA高速互联架构在市场中表现非凡。它的性能出色,我们得到了客户的很大认可。这让 Mellanox 感到很大压力。他们的说法不是事实,而是一种试图转移事实的方式。事实是,英特尔OPA高速互联架构是一款非常棒的产品,在市场中拥有很高的认可度,已经开始要在新一代100 GB/秒网络这一领域中取得领先。

  提问六: 刚才您谈到进一步优化 x86 架构,但是其实我们看到,英特尔主打的至强E5 或 E7 都是按照摩尔定律演进的,可现在大家都觉得演进速度有些过快了,或者说英特尔已经无法控制摩尔定律的发展了。您对此有何看法呢?

  Barry Davis:首先我要说的是,摩尔定律是有效的。在 2015 年中期的季度盈利报告中,我们曾提到过这一点。我们确实说过,摩尔定律正在进行一些扩充。在 14 纳米和 10 纳米产品中,我们进行了一些扩充。我们实际上在每代产品中添加更多产品。就摩尔定律的重要原则而言(即能效和晶体管密度的提升),它仍是有效的,并且是整个英特尔 x86 数据中心路线图发展的一部分。就发展过快方面而言,英特尔正在以推动行业发展所需的速度进行发展。我们有出色的研究人员,并且从数据中心角度而言,我们正在构建出色的产品并将继续推动技术发展。我们继续走在成功的大道上,并未落后于人,领导地位也没有动摇。另外,并非所有制程都完全相同。在能效和晶体管扩展方面,英特尔 14 纳米制程目前优于行业中的任何其他 14 纳米制程。正如我一开始所说,摩尔定律仍然有效。最后,我要再次强调这点,而且认为英特尔的摩尔定律将继续促进行业发展。

  提问七:在我看来,英特尔喜欢整合计算、网络和存储,为客户提供一个整体的平台。为此,客户在购买英特尔产品后可能会比较省心,但从另一个角度我觉得客户可能无法自由选择其他丰富的产品。您觉得这种做法有利于行业发展吗?

  Barry Davis:我们通过英特尔可扩展系统框架提供了丰富选择。我们提供他人可以使用的常用构建模块。例如,我们提供 Lustre 解决方案,但您也可以向希捷、DDN 等厂商购买该解决方案。同时,我们还支持在第三方解决方案中整合我们的软件,如英特尔 HPC Orchestrator。英特尔提供经过高度验证或一般验证的解决方案。我认为性能可靠性至关重要。我们将提供非常好的的解决方案来确保性能可靠性。当然,这类解决方案将配备更多的英特尔组件。此外,我们还提供丰富选择。我们支持客户使用外部网络和第三方存储解决方案。我们致力于提供最出色的解决方案,并通过英特尔可扩展系统框架提供最大的优势。我们支持客户采用不同功能获得差异化优势。这完全取决于客户,但我们深信英特尔 SSF 将成为行业非常好的的框架。当然,如果有人对此持有异议或想使用其他产品,我们也非常理解。

  提问八:一个关于深度学习的问题。我听说 NVIDIA 发布了一款名为 DGX-1 的一体机。我还听说 Google 计划采用该产品,并选购其他平台包括Power 。至强融核似乎已发布了很长时间,你们说在加速领域获得了一些突破,但我发现深度学习更多的还是使用 NVIDIA 平台,请问您对此怎么看?

  Barry Davis:您也知道,NVIDIA 如今在发布一些新产品。NVIDIA 一直在努力发掘深度学习在培训方面的潜力。但是没有一款解决方案可满足所有人的需求。在人工智能和机器学习市场,英特尔无疑是行业翘楚。实际上,NVIDIA 试图将深度学习培训(Training)视为全部市场,但这只是机器学习市场的一小部分,而非全部。对于机器学习这一市场而言,评分(Scoring)至关重要。在评分方面,英特尔至强 E5 处理器产品家族是部署最为广泛的基础设施,获得了机器学习市场几乎所有 CSP 的青睐。我们知道DGX-1的发布,我认为它是英特尔至强融核处理器的强大竞争对手。但我们对我们产品的性能和功能也充满信心。我们将携手深度学习市场的所有合作伙伴将其隆重推向市场。这一新产品将为深度学习市场带来一股新风。它拥有卓越的性能、功效、每瓦性能和性价比。这些优势将助力我们在深度学习市场实现成功。有一点需要强调,机器学习市场并不仅局限于深度学习,其关键是评分。而英特尔至强融核产品家族目前是这一领域的领导者。

  提问九:我们看到中国互联网巨头BAT都在大量采购加速器来实现图片、语音、视频的搜索。想了解一下英特尔在中国是否有明确的计划?

  Barry Davis:我们的策略是加速代码运行,并加快应用在主机 CPU 上的运行速度。这正是英特尔至强融核的使命。它是一款新产品。我们正与全球许多 CSP 合作,并努力向他们证明英特尔至强融核处理器产品家族的出色性能及性能优势。我们的策略是将所有加速要求和功能整合到 x86 架构中,而不是使用存在 PCIe 瓶颈、功耗高及未用于加速时资本在数据中心闲置的连接卡片。这正是我们开发英特尔至强和最新的英特尔至强融核产品家族的目的。

  提问十:关于机器学习的问题,越来越多的互联网公司包括Alpha Go比赛都让我们认识到了机器学习的重要性。而随着加速器的日益普及,而处理器实现的功能是越来越少的。您的想法如何?

  Barry Davis:我不这样认为。再次强调,我们需要区分机器学习和深度学习。对于机器学习而言,Scoring评分至关重要。同时,推断也很重要。显然,英特尔至强 E5 产品家族几乎被全球的数据中心都广泛应用,它这一领域发挥着重要领导作用。此时,加速器并不重要。而相比 GPU 加速器,我们可提供更出色的性能和更高的价值,我们的客户对此心知肚明。

  现在,让我们谈谈深度学习。深度学习包括两个方面:Training培训和Scoring评分。正如我之前所说,评分需部署在数据中心内并运行英特尔至强架构。深度学习是一种新鲜事物。在这方面,NVIDIA 目前推出了一些成功的解决方案,但并未获得稳固的优势。借助出色的每瓦性能和每美元性能,英特尔至强融核处理器将能重塑行业发展。我们将为深度学习市场带来标准性能。

  请大家想一想。我们并非总是需要极致性能。下面,我将以 AlexNet 作为示例进行说明。AlexNet 是一种用于深度学习市场的常见拓扑结构,非常复杂。相比 NVIDIA M40,4 节点的英特尔至强 融核将培训速度提升了 2.3 倍;相比 NVIDIA,32 节点配置实际上将扩展性和效率提升了38%。此外,英特尔至强融核处理器可配备 128 个节点,而 NVIDIA 达不到这一级别的配置。单一节点性能高低其实意义不大。英特尔至强融核可提供高度可扩展的性能,而可扩展性可显著加快培训速度。这是客户亲口告诉我们的。相比之下,现在NVIDIA非常在乎单一节点性能。但是如何在整个数据中心内扩展性能才至关重要,而这也正是英特尔至强融核的用武之地。凭借出色的可扩展性,我相信英特尔将再铸辉煌。

  提问十一:现在我们看到,高性能计算已经越来越多地与各种产业相结合,特别是在中国,大数据是一个特别热门的领域。越来越多的客户采用 HPC 设备进行大数据分析。英特尔在这方面能够为客户提供哪些支持?

  Barry Davis:高性能计算的数据分析,这很有趣。我们的一些大数据中心客户经常谈论三件事:一是建模和仿真即传统 HPC,二是高性能数据分析或大数据,三是机器学习,这些都在 HPC 集群上运行。因此,我们在产品中添加了低延迟互连和企业级内存以提供有力支持。英特尔至强 至强融核处理器支持高达 384 GB 的 DDR4。这种类型的功能不仅将支持传统建模和仿真、机器学习算法,还将支持高性能数据分析或大数据。关于这点,我们早就已经知道了。在多年以前我们就开始将这些功能整合在一起。我们对产品进行了精心设计,以满足高性能数据中心这三种工作负载的需求。

0
相关文章