能耗管理对于数据中心的重要性不言而喻,其不仅在降低运营成本、提升能源效率、满足外部监管和符合内部考核等方面有着重要作用,还与数据中心利润有很强的关联。
数据中心理应高度重视能耗管理,以实现更加高效、环保和可持续的运营。但现阶段,在数据中心内部,能耗管理却变成一项看似被重视实际被忽视的工作。
看似被重视是因为能耗管理会体现在考核指标上,与KPI关联。实际被忽视是因为管理人员普遍缺少体系化的思维模式,缺少结合自身的深入分析。
数据中心应该如何正确地下达PUE指标?数据中心节能效果如何真实有效的评估?PUE越低的数据中心能效管理就越好吗?
任何一个数据中心都需要建立结合自身特点的能耗管理体系,建立自己的能耗模型,通过对能耗的精细化管理,让数据中心保持在最优的运行状态。还可以通过节能体系的建设,让各级运维人员都知道应该关注什么,应该如何开展。
一、要掌握能效管理的本质
数据中心能耗管理的目的就是让能源到算力的转换效率达到最高,那就一定要知道正常情况下需要消耗多少能量,产生多少热量,需要匹配多少冷量。
虽然IT设备自身更需要节能,但是IT能耗通常并不在数据中心控制范围,所以现阶段数据中心更多还是关注动力设施的能源转换效率以及制冷设施制造、输送和交换冷量的效率这几个方面。
数据机房热能曲线
数据中心热量并不是稳定的,而是随着内部设备运行状态和外部环境变化而动态变化的,是二维动态曲线。
数据中心热量的主要来源两个方面:①显热量来源:设备、照明、太阳辐射、外界入室等热量;②潜热量来源:人体散热、渗透空气以及新风换气等热量。
虽然主要热量来源于IT设备,但是统计颗粒度越精细,能源分析就会越精准,管理效果就会越明显。
知道产生多少热量,就可以知道应该匹配多少冷量,确保温度的稳定。但是标准室温并不是唯一的数值,而是一个范围区间。所以,冷量通常是滞后于热量而动态变化的,并不需要时刻保持精准的匹配。
冷量匹配曲线
在实际工作中,热量和冷量真正统计起来会很难,但是只有建立和保持这种思维,①才能知道需要制造、传输和交换多少冷量,算出存在多少浪费,②才能找到哪个环节需要改进,③才能知道节能操作的真实效果,④才能为后期真正意义上的智能调优做好数据积累。
二、要建立符合自身特征的能耗模型
数据中心要结合自身的供配电和制冷模式,建立符合自身特征的数字化能耗模型。建立能耗模型时,需要综合考虑设备间的关联和影响关系,以及外部环境因素(如温度、湿度等)对能耗的影响。
要充分利用能耗模型,实时监测和分析能耗情况,为节能优化提供数据支持。
数据中心能耗模型
建立模型看似简单,但很多数据中心的能耗模型并不完善,部分数据由于接口、通信等原因无法采集,部分数据由于缺少实时监测没有被纳入,数据采集和处理过程中也可能存在误差和不确定性。
采集颗粒的精细度、采集数据的完整度、模型的匹配度,都将对节能分析和节能操作产生重大影响。
三、要开展精细化的能耗分析
能耗模型绝不是只用来计算PUE,通过精细化能耗分析,找到能耗系统存在的问题并加以改进才是重点。
1.运行PUE与设计PUE对比
设计PUE更多是基于规划、立项、审批的考虑,对外的意义实际上是大于对内的,从字面上满足1.2只需调整一些参数即可。而运行PUE会受到上架分散、低上架率、低IT负载率等一系列因素的影响。
在实际工作中,运行PUE和设计PUE不符的情况时常出现。要实现1.2以下的运行PUE目标,需要在数据中心全生命周期各个阶段都做好充分的准备。
设计PUE虽然存在一些问题,但毕竟可以很好的结合自身制冷模式,体现数据中心整体的运行特点,在月度曲线上有很大的参考价值。
首先,对运行PUE与设计PUE进行年度比对,判断数据中心运行能耗是否在合理范围内。其次,再进行月度比对,找到重要偏差的节点,最后再详细分析形成的原因,判断是否存在优化的空间。
设计PUE与运行PUE曲线
例如,上图所示为某北方数据中心,从整体上看设计和运行没有太大偏差,但是1月、3月和11月差距交到,需要进行深入分析,找到冬季自然冷源效果不理想、冬春过渡季优于设计值和秋冬过渡季劣于设计值这3个关键节点的原因。
2.能耗模型与标准模型的横向对比
建立完符合自身特征的能耗模型只是第一步,最重要的是要与相同运营模式下的标准模型或者同行业标杆模型进行全方位的横向对比,确定需要优化的方向。
能耗模型与标准模型对比
例如,上图为XX数据中心能耗模型与标准模式的对比。可以明显的看到XX数据中心制冷机组能耗占比16%,而标准模型中只是10%,说明在冷量的制造、传送和交换环节出现了问题,造成了冷量的浪费,这就是优化的方向。
3.能耗子模块间的纵向对比
当数据中心优化到一定阶段,与标准模型横向对比已经差别不大,无法深入优化时,可以继续进行纵向的深度优化。在同类型各子模块之间进行对比,找到差异较大的优化节点。
这种对比可以是任意两点之间,可以是多个高压配电系统之间的插损、多个高压配电柜到低压配电柜之间的线损等等,只要标准一致就可以对比参考。
能耗子模块间对比
例如,上图为某数据中心4套低压配电柜的设备损耗,可以看到A系统的损耗达到8.41%,要明显大于其他三个系统,这种变化是很难在生产中直接发现的。
因此需要重点检查一下A系统在设备老化、线路接头等方面是否存在问题,一方面降低损耗,另一方面也消除潜在的安全隐患。
四、海量的能耗数据需要深入挖掘
数据中心生产系统较多,包括DCIM、动环、BA等各类管理系统每天都会产生上万条生产数据,包括运行数据、性能数据、告警数据以及控制数据等等。
但是绝大部分数据都没有被真正的统计、分析和利用,处于闲置状态,造成极大的浪费,以至于运营人员并没有真正掌握数据中心的真实运行状态。
这些看似无用的数据,不仅可以挖掘出潜在的隐患,还可以通过分析开展精细化的调优,使系统处于最优的运行状态,达到更优的节能效果。
对这些闲置数据非常有必要进行二次开发,通过数据整合与标准化、数据清洗与预处理、建立和完善数据分析模型,一方面对现实进行优化,一方面为搭建数字孪生系统提供数据支撑。
在实际工作中,通过数据挖掘实现节能的例子非常多。
例如,某数据中心末端空调采取追回风温度的方式,但由于回风是跟踪机房整体温度,在低上架率、低负载率或者上架分布不平衡的情况下,必然会造成部分冷量的浪费。
通过对机房整体数据的综合分析,可以找到温场平衡情况和温度高低点,尝试从跟踪回风温度调整到跟踪送风温度,并结合精准送风,实现末端空调节能在5%以上。
五、低PUE并不意味低能耗
监管部门和数据中心管理人员可能存在一个认知上的错误,就是PUE越低能耗就越低。当数据中心处于发展初期,PUE较高时是成立的,但是当数据中心发展到需要精细化运营的今天,两者并不是线性相关的。
例如,上面左图是数据机房IT设备能耗、空调系统能耗与室温设定值的关系,可以看到室温设置越高,IT能耗越高空调系统能耗越低,结果必然是PUE越低。上面右图显示室温越高,虽然PUE越低,但是系统的总能耗在达到一定限制后开始增加,并不是持续降低。
造成这种情况的原因是,空调系统节约的部分能耗,实际上转移到了IT设备的风扇等能耗上。如果详细分析IT系统的能耗会发现,IT风扇功耗在快速增加。
能耗精细化管理的目的,就是在室温、PUE和总能耗之间找到这个平衡点,实现利益的最大化。很明显,这个平衡点是随着机房上架情况而动态变化的,所以能耗管理是一个长期持续的工作,而不是一次性工作。
六、能耗管理专岗不能被忽视
今年11月发布的《中华人民共和国能源法》,标志着国家已经建立能源消耗总量和强度双控向碳排放总量和强度双控全面转型新机制,加快构建碳排放总量和强度双控制度体系。
数据中心需要不断探索新的节能技术和方法,实现节能减碳目标,满足外部考核和内部管理的要求。
按照《重点用能单位节能管理办法》相关规定,重点用能单位应当明确能源管理部门,设立能源管理岗位。重点用能单位应当聘任具有节能专业知识、实际经验以及中级以上技术职称的人员担任能源管理负责人。
但在实际工作中,大部分数据中心缺少专业的能耗管理人才,缺乏整体的节能思维模式,通常只是围绕如何满足PUE指标开展节能,并没有真正关注能耗的合理性。
能源岗位也更多是动力岗位或者动环岗位兼职,思维模式还停留在传统阶段,与智能化、平台化和系统化还存在很大差距。如何转型可以参考《数据中心人才需求的变革趋势与招聘应对策略研究》一文。
能耗管理必须由数据中心自有人员全程负责,通过持续不断地数据分析和挖掘,通过对能耗数据的详细分析,可以不断发现和优化系统逻辑错误、控制错误、设备性能劣化等多方面问题。
例如,某西部数据中心制冷模式采用间接蒸发冷却技术,分析运行数据发现,冬季干模式下自然冷却能耗和夏季机械补冷模式能耗相差并不多,详细检查后找到原因,原来是系统控制逻辑在安装后未进行有效优化造成。
七、不要过度依赖第三方能耗系统
很多第三方厂家的能耗模型有着高大上的驾驶舱,有着华丽的界面,有着各种动态的显示,但是对于最重要的数据分析却简单的可怜。
从整体角度来看,第三方能耗系统可以满足对外的能耗监管,但是要真正实现内部的能耗精细化管控和调优,还存在一定差距。
数据中心都有相对完善的能耗管理系统,这些系统少部分是专项开发,大部分是直接采购第三方厂家现有的标准系统,再进行少量优化,缺少与现场的匹配度和针对性,不容易实现个性化数据分析和精准化数据分析。
能耗管理并不是一次性工作,需要结合外部环境、内部模式、上架情况和功率情况等等,随时进行动态调整优化和升级。
现有的第三方能耗系统并不一定能快速满足,所以数据中心运营人员不要过度依赖第三方能耗系统,要时刻保持自身的能耗分析能力。
八、不要过度依赖AI系统
数据中心最重要的AI节能在制冷方面,“AI+BA”等方式已开展多年,确实可以很好的对现有可控系统进行整合,使其性能达到最优。
但是,由于无法将所有需要控制的节点全量纳入,只能实现局部范围的最优节能,无法做到整个系统的最优节能。
如下图所示,各数据中心各系统都是分开管控的。
数据中心制冷系统管控模式
冷却系统、冷冻系统、末端空调由BA系统监控,冷热通道温湿度、机柜测温矩阵由动环系统监控,诱导风机、通风地板等通常都是手动调节,而客户IT服务器的风扇基本不在检测范围,更谈不上控制。
只有把所有的因素全量纳入管控,特别是将客户IT设备的风扇纳入到联动控制系统中来,实现全节点的联动才能建立全系统最优的节能模型。
前面已经看到,当IT设备纳入到联动系统中就会发现,最低的PUE未必是最少的能耗。
不要过度依赖AI系统,并不是说AI不好,而是说在条件不完备的前提下,要通过合理的管控,在能耗管理方面更加精益求精。
“善战者无赫赫之功,善医者无煌煌之名”,运维工作就是这样默默无闻。我们要做的不是力挽狂澜的应急处置,不是极致的个人英雄主义操作,而是要将各项工作有效的前置,并且做的足够细致,尽可能确保数据中心持续稳定的运营。