超大规模数据中心网络无论是在架构、技术还是运维上都发生了巨大的变革,有效地支持了互联网和云计算过去10年的繁荣。展望未来,在人工智能、大数据、物联网、云原生等技术和业务的驱动下,数据中心网络该向何处发展是专业人士们必须考虑和面对的问题。该文结合行业发展测未来超大规模数据中心网络的发展趋势如下:
一 网络带宽持续演进,芯片是核心竞争力
在人工智能、大数据、机器学习,以及高清视频、AR、VR等技术和业务的驱动下数据中心对网络的带宽需求将继续呈加速发展的趋势。数据中心交换机芯片在未来5年依然会处在加速迭代之中,芯片技术的摩尔定律会依旧有效,大概每隔2年交换机芯片的容量就会增长一倍。SerDe技术也在从10Gbit/s、25Gbit/s向50Gbit/s、100Gbit/s快速迭代,相应的光模块技术也逐渐从25Gbit/s、50Gbit/s、100Gbit/s向400Gbit/s、800Gbit/s和Tbit/s级发展。交换机芯片技术和光芯片技术的持续迭代将有力保障数据中心网络对带宽的增长需求,而网络带宽的演进必然会牵引计算存储架构的演进。
除了容量持续演进,芯片具备可编程能力将逐渐成为主流,对网络可视化支持的力度将会成为芯片的核心竞争力之一。
二 硬件白盒化、OS开源、软件自主掌控
SDN理念带来设备解耦生态逐渐成熟,芯片商业化、硬件白盒化和定制化、软件自主掌控将进一步普及。自主研发交换机设备不仅是为了节省成本,更是通过自主把控软件、定制化硬件,做到软硬件的一体化,这不仅可以快速迭代网络功能来支持业务发展的需要,更能做到对网络的灵活高效监控,并最终把网络变得更稳定和智能,让网络真正成为核心竞争力。
目前,基于开源的开放生态已经逐渐成熟,交换机操作系统可以依赖生态的力量,而互联网公司可以专注在上层的软件和运营管理系统。自主研发交换机设备将不再仅仅局限于几个少数超大规模的互联网和云计算公司,越来越多的公司将加入这一阵营。
在当下的开放生态环境下,开源操作系统更加有利于芯片、硬件和软件的标准化和兼容性,有利于生态的良性发展,开源操作系统将会成为互联网云计算公司的首选。值得一提的是,由微软公司倡导,阿里巴巴作为主力成员推动的开源SONiC系统得到了业界的广泛关注和支持。
三 软硬件一体化的高性能网络转发:网卡硬件卸载和可编程芯片
众所周知,CPU的摩尔定律已入暮年,而云服务和机器学习规模却在呈指数级增长。虚拟交换机是云数据中心网络不可分割的一部分,但是基于服务器的网络处理方案也并非一帆风顺,40GbE甚至100GbE网络架构的快速采用、服务器外部吞吐量大幅提升、网络安全等附加功能的堆叠、大量虚拟机的增加,导致CPU资源被大量用于内外部网络和附加功能,使数据中心陷入了无休止的“机海战术”,从而带来了部署规模、应用效率、CapEx等多方面的挑战。如何提升基于传统x86服务器的虚拟网络性能将变得至关重要。面对单服务器内部的转发能力的性能瓶颈,业界诸多的供应商试图在FPGA、多核处理器及传统网络处理器上开发智能网卡(SmartNIC)解决方案。通俗地说,智能网卡是把服务器的网络功能,包括vSwitch、vRouter等网络组件从x86卸载到智能网卡上,实现对x86服务器处理器资源的释放,提供更高性能的网络处理性能。
SDN发展的第一波浪潮打破了管理平面、控制平面和数据平面的封闭集成,突出了软件的作用,给网络行业带来了变革。但随着SDN应用的进一步普及,纯软件的限制愈发明显,如何更简单有效地控制底层硬件和芯片层变得愈发重要。P4(Programming Protocol-Independent Packet Processors)正是在这一背景下应运而生的。对底层芯片开放的可编程的能力将会掀起下一波的SDN行业发展潮流,在软硬件一体化、网络可视化方面必然会再产生一次变革。
四 网络融合成为一体化数据中心的 I/O:低延时网络
网络的功能不再是仅仅提供连接,网络会变成计算机I/O的延伸。超高带宽和超低延时的网络正在将本地存储和网络存储的界限变得模糊,为计算存储分离和资源池化的数据中心一体化架构奠定基础。网络是数据中心一体化中的核心组件,成为下一代高性能计算和存储的强大驱动力。如何降低网络延时会是一个长期的过程,RDMA及同类技术将会逐渐成规模部署,在应用遇到瓶颈时,将会催生革命性的新技术或架构变革。
随着人工智能、大数据的逐渐普及,数据中心对计算力的需求越来越高,超高密度异构计算集群将会成为基础设施的核心竞争力。如何把计算芯片和高效存储介质高效地互联在一起,并能够大规模扩展是需要解决的问题。数据中心网络将不仅仅局限于交换机网络,将进一步延伸到主机内部,把主机内各种计算芯片和存储介质部件高性能地互联在一起,并和交换机网络融合为一体。传统的以CPU为中心的服务器架构将会逐渐演变为以数据互联1/0为中心的架构。网卡将突破传统IO功能,充当硬件虚拟化载体,以及交换机网络互联和主机内组件互联的桥梁。基于硬件的高速网络转发、网络QoS、网络可视化等功能将被拓展到主机网卡上。
五 网络可视化技术,基于大数据和人工智能的智能化运维
自动驾驶已经变成可能,大规模应用只是一个时间问题。大规模网络运维的自动化也必然是业界的趋势,要达到自动驾驶或自动化运维都需要两个共同的条件:一是有足够有效的数据,二是要有对数据的智能分析和处理能力。有效数据的获取必然要通过网络设备来实现,交换机芯片的可视化功能将起着至关重要的作用。
传统上我们对交换机设备的监控和数据的获取颗粒度很粗,一般停留在设备级别的运行状态,包括CPU、Memory、端口、各种表项的监控等;对这些信息的获取也只是SNMP、CLI等原始方式,获取数据的效率很低。这些都无法满足自动化运维的需求。新型的交换机芯片在网络可视化方面已经迈出了坚实可喜的一步,目前在市场上售卖的部分交换机芯片已经能够提供更丰富的信息,比如支持INT(In-bandNetwork Telemetry)功能,可以获取特定用户流的物理路径、延时、交换机缓存水位等信息;MoD(Mirror on Drop)功能可以截取由于交换机管道或者缓存拥塞而导致的丢包信息。这些丰富的网络数据通过人工智能分析系统将会把网络运维提升到前所未有的智能化高度一一自驱式网络(Self-driving Networks)。除了信息内容,交换机获取信息的方式和效率也有大幅度的提升,流遥测(Streaming Telemetry)功能可以通过软件或者直接通过芯片把监控数据高效地传到网络监控系统中,对于关键信息的监控颗粒度可以精确到微秒级。
六 光互联趋势
在10GbE速率之前,服务器与交换机比较经济的互联方式是RJ45双绞线互联随着速率的演进,对传输信号衰减要求愈发严苛,到25GbE 时代已经全部统一到光纤或铜缆互联,到了下一代50GbE 或100GbE,铜缆的应用距离、范围将进一步被压缩;再往后演进,不仅设备间互联铜缆将难以胜任,甚至设备内部,从芯片到端口.都不得不采用光互联。光互联必将越来越普遍,光互联技术的发展已经成为影响网络速率演进的重要因素之一。目前,数据中心内设备间互联模块及线缆成本已经远高于。设备本身,如何控制、优化光互联成本对往后数据中心网络成本影响巨大。
七 绿色网络
随着人工智能、大数据的逐渐普及,数据中心对计算力的需求越来越高,超高密度异构计算集群将会成为基础设施的核心竞争力。计算力的大幅提升必然带来对功耗需求的大幅上升,功耗和制冷是必须要解决的问题,是保障超大规模数据中心可持续发展的关键一环。