在迈向E级计算的道路上 Torus只是个开始-服务器专区

在迈向E级计算的道路上 Torus只是个开始

作者：陶然编辑：陶然 2017-12-01 16:05 IT168网站原创

　　【IT168 评论】当高性能计算机的计算能力从P级跃上E级、超级计算机的计算核心数目从几十万个扩展到几百万个，超大规模计算之下各计算单元如何保持高效互连与协同？前不久，在世界超算大会(SC17)上，中科曙光面向全球首发的Torus硅元交换机给出了答案。

　　在SC17上，中科曙光发布了一款基于英特尔Omni-Path网络的液冷交换机--Torus硅元交换机，这不仅仅是世界上第一台液冷交换机，包括所采用的Omni-Path网络布局和底层算法，也是经过中科曙光与英特尔联合设计的。它的目标客户群，就是那些大规模的超级计算机。

在迈向E级计算的道路上 Torus只是开始
▲曙光公司高性能计算产品事业部总经理和Intel OPA Marketing Director Joe Yaworski

　　曙光公司HPC产品事业部总经理李斌表示：“目前大型超级计算机，特别是准E级或未来的E级系统，在系统规模、扩展性、成本、能耗、可靠性等方面仍面临着严峻挑战。本次发布的硅元交换机是全球首款采用Torus架构的高速网络交换机产品，基于它构建的超级计算机互连网络系统具有领先的性能、超强的扩展能力、较好的容错能力，是迈向E级的非常好的网络技术路线。”

　　Torus是曙光应对E级计算挑战的一种解决方案，它的设计理念就是通过高维网络架构和层次化网络系统，使系统具有10万节点的扩展能力，满足百亿亿次计算的需求。当然，这并非是中科曙光第一次提出Torus的概念，早在2015年中科曙光就提出了3D-Torus的概念并发布了相关的产品。只是这次，3D-Torus的应用环境得到了极大的扩展，最高可以达到6D。

　　李斌介绍说，曙光公司早在2015年的硅立方高性能计算机中就已实现了三维的3D-Torus。目前，曙光的Torus网络技术研究又有了突破性进展。Torus网络的维度从3D进化到了6D，提高Torus维度能有效降低大规模系统的最长网络跳数。在软件层面，支持6D-Torus的无死锁动态路由算法已经经过实际环境检验；在硬件层面，本次发布的Torus硅元交换机就是一项重要的硬件实现。

　　在高性能计算领域，胖树架构(Fat-Free)是非常主流的网络模式，许多我们耳熟能详的超级计算机都在采用类似的架构，包括我们刚才提到的天河二号也是如此。但是伴随着系统规模的进一步提升，胖树的层级拓扑在实际应用中会带来较大的延迟，而且在成本方面也随着系统规模的增加而增大。

　　与传统胖树网络拓扑结构相比，强调邻近互连的Torus直接网络在扩展性上具有明显的优势，且网络成本和系统规模呈线性关系。另外，因为具有很多冗余数据通路和采用动态路由，Torus网络也具有天然的容错性优势，这些都是超大规模系统所需要的网络特性，也是国际主流的高速网络技术发展方向。

　　“硅元”是指Torus高维直接网络中的一个单元，一个硅元内部采用3D-Torus拓扑结构，多个硅元可以构建更高维的4D/5D/6D-Torus直接网络。将一个3D-Torus硅元集成到一台模块化交换机，能够较高提升系统集成度和密度，减少网络线缆，降低部署复杂度，降低成本。本次发布的Torus硅元交换机可以支持多达192个100Gb高速网络端口，Torus硅元交换机之间通过400Gb专用接口进行互连。

　　通过这样的硬件实现，也提高了Torus高速网络技术的覆盖范围，一些中小规模的高性能计算系统也可以更便捷地享用这项先进技术。

　　值得一提的是，本次发布的Torus硅元交换机还支持冷板式直接液体冷却，这标志着曙光的液体冷却技术从计算设备延展到了网络系统。液冷技术对提高大规模网络系统的集成度和可靠性、降低能耗等方面同样可以发挥重要的作用。

　　当然，无论是6D-Torus还是硅元交换机，都并非是中科曙光的终点。谈到未来时，李斌表示：“我们还将进一步提升硅元交换机的性能，我们也会通过算法与程序，在相对较远的节点之间设置专线，就像城区的快速路那样，实现数据的一站式传输”。

　　写在最后，Torus硅元交换机不仅仅立足当下，更是面向未来。无论是最高6D的互联模式还是液冷的散热方式，都意味着这款产品瞄准的是大规模高性能计算机，瞄准了未来的百亿亿次计算时代。相对于这一目标，性能的出色或者成本的节省都是Torus带来的“附属品”。中科曙光正在通往E级计算的道路上前行，Torus只是个开始。

关注我们