1.背景
前期我们详细介绍了B站在定制化数据中心(R2-AZ2)项目上的探索,主要集中在智慧节能数据中心的技术迭代和实施情况。数据中心的高效运作并非孤立存在,它依赖于复杂而精细的互联互通网络,确保数据中心内的服务器、存储和网络设备间的连接。
布线系统是实现数据中心互联互通的关键组成部分, 数据中心布线的管理不当问题会造成生产环境交付周期拉长、预留线缆过长、线缆布局混乱、设备安装困难、故障排除和维护时间增加,甚至会影响机柜的气流组织,导致局部过热从而影响电子信息设备的安全运行。
此外,随着AI技术及业务应用的快速发展,智算中心正在迅速崛起,网络正向大带宽、低延时、低功耗等方向发展,这也意味着对网络和布线系统的要求正在持续提高。
布线系统作为大型数据中心的关键基础设施之一,如何利用数字化管理工具提高其交付及运维管理效率,也是我们一直在思考的问题和探索实践的方向。
1.1 数据中心布线介绍
在对数据中心生产系统进行综合布线设计前,应先了解业务侧对于网络的需求,确定网络布线的拓扑结构,并按照设计的网络拓扑结构来确定数据中心综合布线的设计方案。
图1 网络布线实施流程图
常见有两种布线方法:结构化布线与非结构化布线。
结构化布线通过采用标准化的预定义连接点和路径设计,利用一个或多个配线区域和布线产品(如布线网络机柜、高密度配线架等)为电子信息设备提供基于标准的连接,当电子信息设备移动、增加或改变时,只需要在集中配线区重新跳接线缆,而永久链路部分则不会因设备的移动、增加或改变而变动。结构化布线系统采用高密度的预端接光缆,大大减少了机房内的光缆数量,但布线系统的设计和安装需要更多的时间和成本,且同一链路因增加了中间连接点可能会降低网络传输质量。
非结构化布线也称为点对点布线,顾名思义,这种类型的布线系统不使用任何预定义的标准、连接点或路径,直接进行端到端的线缆连接。与结构化布线相比,非结构化布线系统的安装成本较低,安装时间也较短,但后期运营及变动的成本较高。
B站目前根据在不同的机房环境和业务对于网络需求,综合考虑成本、交付周期、现场环境等因素,灵活选择布线方式。针对常规服务器机柜区域通常优先采用非结构化布线,对于重要等级的网络核心机柜区域会考虑采用结构化布线设计来优化线缆数量和后期运营管理。
图2 网络核心机柜布线现场图
1.2 B站布线智慧管理平台开发
针对单楼栋的数据中心网络布线任务,一般按照业务交付节奏,分若干批次布线工程来完成。在处理每个批次的布线工程时,全生命周期信息流转和管理依赖不同角色的人员手动通过办公软件工具完成,面对当今复杂的中大型数据中心集群生产系统快速交付需求时,有如下的问题和挑战:
(1)文件标准化和准确度问题:在布线工程过程中,文件流转的标准化和准确度不足可能导致信息缺失或错误。我们需要确保文件格式、数据内容等达到一定的标准,并减少人为操作导致的误差。
(2)路由规划效率问题:目前的手动规划方式效率较低,容易造成路由长度预估错误,导致实际施工中的误差和额外工作量。我们需要提高路由规划的自动化和准确性,以减少人工干预和误差。
(3)布线管理复杂度高:由于涉及的人员、角色和基础数据众多,布线管理成为一项繁琐且周期较长的工作。传统的单批次布线工程和交付信息成为孤岛,导致历史机柜布线状态和信息不完整,不利于提高机房生产环境交付效率和投运后的运维管理及布线优化。我们需要建立更高效的信息管理和数据共享机制,以实现更顺畅的信息传递和更优化的布线策略。
基于以上背景,结合我们实际的布线工程管理经验,提出B站数据中心网络布线智慧管理平台的开发项目,旨在将线下的网络布线过程实现数字化、可视化、智能化,使得专业技术人员能够轻松、快速、准确完成布线规划、管理和运维工作。
2.布线智慧管理平台
针对B站布线管理平台,梳理完整的布线管理流程,以下为流程示意图。
图3 布线管理流程示意图
B站布线智慧功能平台分功能模块、分期进行快速开发迭代,本文将重点阐述红框的布线路由自动化模块,这部分数据的准确性将直接影响到整个布线任务的最终效果。
2.1 功能一:基础信息维护
布线管理涉及到的对象包括但不限于以下内容信息:
线材
机柜
边柜
通道
立柱
列头柜
列尾柜
包间桥架
跨包间生产桥架
……
图4 机柜平面布局&生产桥架平面图
对以上基础数据,我们提取与布线工程强相关的基础数据,整合抽象若干数据模型,如机柜模型、通道模型、跨包间互联模型等,结合机柜平面布局&生产桥架平面图等,由运维人员根据不同物理环境情况,提前维护以上基础数据信息,为布线项目计算打下基础。
2.2 功能二:布线路由自动化计算
方法一:场景归纳计算法
为自动完成布线路由的计算,B站采用高性价比的方式,快速构建简单明晰的数据中心包间布局示意图,运维人员通过新增行列形式,绘制包间物理拓布局结构,并关联基础数据,建立立柱、通道、机柜的相对位置关系。
图5 平台上构建的机房布局界面展示
总结日常的布线需求,整合抽象6种高频布线的场景,分别为:
同包间同通道布线
同包间[指定路由方向]/[不指定路由方向]的跨通道布线
跨包间不指定路由的布线,其中起始机柜和终点机柜与包间桥架出口均在同一列
跨包间不指定路由的布线,其中起始机柜或终点机柜与包间桥架出口不在同一列
跨包间指定路由的布线,起始机柜和终点机柜与包间桥架出口均不在同一列
其他场景可灵活添加。
针对不同场景,定义计算布线距离的统一公式,选择距离最短的布线路由。
方法二:最短路径寻优法
布线路由的计算可转化为图论里的最优路径问题求解,相比于方法一的场景归纳计算法,计算效率更高,适应的机房布局和布线场景更广,但难点在于如何将实际的工程问题转化为数学问题并求解。
我们通过先在设计阶段对强弱电桥架和机房机柜、配电柜进行分段有序编号,再于布线规划阶段对桥架、机柜、配电柜等涉及线缆连接的设备建立数学关系模型,明确相互之间的几何关系,并输入各段桥架布线长度的初始数据,最后通过最优路径规划算法,自动计算任意设备之间布线的最短路径,输出规划路径结果。
图6 最短路径寻优流程图
2.3 功能三:新建布线任务
2.3.1 任务生成
以任务的形式在平台上生成单布线需求,针对单布线任务,可按照布线场景批量创建布线明细(如机柜内垂直布线,业务交换机到网络核心跨机柜布线,网络核心间跨机柜布线等场景)。
布线明细中明确以下核心信息:
布线任务名称:命名区分任务需求
布线的起点信息:包括起始包间、起始机柜、起始U位
布线的终点信息:包括终点包间、终点机柜、终点U位
线材类型:六类非屏蔽网线,LC-LC,AOC,MPO……
布线线缆编号:自动生成
……
明确好布线基础信息后,由系统自动计算最短路径并输出布线长度,给出所有布线任务的清单明细。
图7 平台上新建布线明细界面展示
2.3.2 任务执行
平台布线任务生成后,进行任务执行阶段,通过流程审批,将过程管理文件数字化、平台化,实时更新布线工程相关信息,直至最终的布线验收和交付使用。
2.4 功能四:布线运维管理
前序布线任务完成后,布线的基础信息数据将持续为后续的布线运维管理提供价值。通过可视化工具可快速了解机房的布线关键信息,判断业务环境网络布线的交付情况。通过数据分析,可进一步分析线缆类型与连接设备端口是否匹配、不同类型/品牌/批次线缆故障率、布线成本趋势等指标,助力故障线路寻源工作。
图8 布线运维管理可视化界面示意
3.平台应用及未来展望
目前B站布线智慧管理平台1.0版本已正式上线,我们提交的发明专利《机房布线方法和系统》处于实质受审阶段,已实现布线和机房信息平台化、布线路由和长度自动化计算等功能,不仅大大提升了布线工程实施效率和效果,而且平台自动规划的路由长度较前期手工计算的长度平均减少10%,从而帮助网络和数据中心运维管理人员做好布线降本和布线系统管理工作。
未来我们将持续整合布线项目的实施、交付及网络运维经验,致力于打通网管、IDC运维管理与布线管理之间的信息对接和应用。通过这种方式,我们将构建一个更全面、更智能、更强大的B站布线管理平台,从而助力实现网络布线的快速交付、智能运维和精细管理。