服务器 频道

数据中心的AI秘笈:数亿美元电费是怎么省出来的?

  东数西算,让数据中心成为行业关注的焦点。

  本质上,这是双碳背景下的能源供需再分配,发挥西部可再生能源的优势。而当下,国内数据中心在绿电供能未完全放开的情况下,数据中心的节能减排、降本增效,仍然在眼下被放置于首位。

  PUE(Power Usage Effectiveness),即电源使用效率,是一项衡量数据中心运营、管理水平的关键指标,也是数据中心绿色、节能、环保程度的代名词。

  围绕“碳中和”的时代命题下,这一名词更是被行业观察家们频繁提及。

  根据国际正常运行时间协会2014年的数据中心调查,全球大型数据中心PUE的合理值界于1.6-2.0之间,PUE平均值为1.7。而国内数据中心同期PUE为 2.5-3.0,IDC行业整体处于粗放式的发展阶段。

  一直以来,欧美国家的数据中心行走在绿色节碳的最前沿。全球数据中心节能领域的佼佼者——Google,在2016年为已经很节能高效的15座数据中心,节省了40%以上的冷却耗能,约占数据中心用电总成本的15%,PUE降低至1.12。

  过去6年,Google数据中心被外界津津乐道,也成为IDC行业用智能技术“武装”自己的学习范本。基于此,本文着重讨论如下问题:

  1.Google实现绿色低碳的秘笈究竟是什么?

  2.国内数据中心节能减排的切入点和主要路径是什么?

  3.国内领先的数据中心有哪些具体实践和成果?

  4.数据中心未来会朝怎样的方向发展?

  能效比行业高1/3

  2014年,Google消耗了440.3万兆瓦时的电力,相当于36.7万户美国家庭全年的总用电量。对于Google来说,即便是节省几个百分点的耗电量,都意味着巨大的经济效益。

  其中,数据中心的用电耗能所占比重很大。无论是Google覆盖全球的网络服务还是手机应用,都需要数据中心来提供支持。

  根据美国能源信息管理局的数据,美国商业用电价格通常为25美元/兆瓦时到40美元/兆瓦时。数据中心用电如果能减少10%,就能帮助Google节省数亿美元的支出。

  然而,每个数据中心的体系结构和环境都很独特,这个高度复杂的动态环境牵扯大量的参数,传统的公式工程学和人工手段很难优化。

  此时,基于通用智能框架的AI派上了用场,由Google数据中心部门和Deepmind来操刀。

  这个项目萌生于2014年,起因是青年工程师Jim Gao在网上观看斯坦福大学教授吴恩达的教学视频后,受到的启发。他认为用类神经网络可以提高Google数据中心的效率。他和团队的想法也很简单:再小的提升也有巨大的节能效果,对于减少碳排放,帮助抑制气候变化能够起到很大作用。

  为期12个月的开发阶段中,AI预测PUE的精准度被优化到了99.6%。为了让模型准确预测数据中心的效率,算法从数千个传感器中提取出数据中心冷却系统的快照,输入到深层神经网络;然后根据不同组合预测潜在行为对能源消耗的影响,帮助Google决定何时清理热交换器,从而提高设备冷却性能。

  Google每个数据中心都有各自的供电和冷却设施,而且分布在不同的气候区。虽然季节性天气变化也会影响PUE值,但对于谷歌遍布世界各地的所有数据中心,都已成功地把PUE值保持到一个较低的水平,即使在湿热的亚特兰大夏季也不例外。

  2018年前后,Google完成了这套AI系统的升级,不需要人工干预即可直接控制数据中心的制冷系统,而且可以被数据中心的操作专家有效监控。同时,这套基于云端的AI控制系统已经为Google多家数据中心应用,节约了大量的能源。

  Google全球数据中心副总裁Joe Kava在博客中表示,在欧洲,Google数据中心的能耗通常比一般的数据中心低三分之一,但团队仍然在努力使用更少的能源。例如把弗雷德里西亚数据中心打造成为丹麦最节能的数据中心之一,利用先进的机器学习技术确保每瓦电量都使用得当。

  数据中心为什么是“电老虎”

  Google AI第一次声名大噪,是在2016年的那场AI与真人的围棋对决。在机器学习和算法的神秘面纱被揭开后。中国对于AI技术的热忱,以及可落地场景的探索,掀起了一股前所未有的热潮。

  中国IDC行业也深受启蒙,开始研究如何利用AI技术为数据中心提高能效。Google利用AI算法控制数据中心制冷系统的思路,在这个时期也被传导至国内,加速中国大型数据中心走向节能减碳的阵营中。

  市场也察觉到了一种变化:以前,产业界关心用于人工智能的数据中心;后来,他们更在意用于数据中心的人工智能。

  这一趋势发生在AI的黄金时期。大规模的服务器串联而成的计算系统支撑了海量的数据处理和运算,一座座数据中心拔地而起。数据中心机架数量由2016 年的 124 万架上升至 2019 年的 227 万架,四年间上涨 83.1%。

  这些耗电量大,功率密度高达30-50kW,有些甚至已经升级为100kW的机架,对数据中心的能耗带来了更大挑战。

  不过,传统的大型数椐中心机房IT设备仅占用电耗能的46%,另有40%以上用在了泵、冷却器和冷却塔等大型工业制冷设备上。为了维持机房恒定温度,数据中心通常把进风温度控制在20-25度。

  根据PUE=数据中心总耗电/IT设备耗电的计算公式,不难看出制冷环节是导致数据中心能耗飙升的主要元凶,也是PUE居高不下的原因。

  如今,行业级的AI智能解决方案,正以提高能源利用效率的方式,推进中国数据中心的建设和升级。

  2019年,我国在用超大型、大型数据中心的平均PUE分别为1.63和1.54,规划在建的数据中心,平均设计PUE在1.5左右。虽然行业专家坦承,我国数据中心的总体能耗仍与国际先进水平相差30%以上,且只有一小部分新建数据中心PUE可做到1.4以下,但这一差距正以肉眼可见的速度缩窄。

  年度减排=种16万棵树

  在国内,华为是第一家用AI帮助数据中心在冷却环节做复杂决策的企业。

  传统的制冷系统管理虽然久经验证,但高度依赖运维人员的经验,IT团队时常人手不足,或没有足够的资源来密切关注7*24小时的复杂流程,缺乏一定的灵活性和精确性。

  Google数据中心的智能路线,让行业愈发看到AI既能够胜任全天候的实时监控,又能在大量系统参数发生变化时,发挥及时应对的技术优势。

  廊坊云数据中心是华为公有云的北方基地以及华北地区的数据枢纽,也是华为落地AI的首个项目。

  出于节能减排和控制成本的考虑,华为廊坊云数据中心在建设之初,就采用了行级精密空调、高效供配电,冷热通道隔离等设计方案,还部署了间接蒸发式自然冷却(IEC)系统,并利用外部冷源,降低制冷系统的电力消耗。

  尽管设计方案在当时很超前,但如此复杂的体系,限制了数据中心的运维调整空间,系统给无法根据系统的实际用量做出精确的调整,只能在几个固定模式之间来回切换。

  而大数据与AI的结合,让华为数据中心找到了算法的最优解。廊坊云数据中心率先成为了“试验田”。

  2018年5月,华为把iCooling能效优化技术方案部署在廊坊云数据中心的1500个机架上,节省了8%的电力消耗,年平均PUE从1.42降低至1.26。算下来,每年可省下630多万度电,减少超过300万千克的二氧化碳排放,效果等同于种下了16万棵树。

  这套系统的逻辑和上述Google的智能解决方案类似:系统从700多个监控点、传感器中收集数据,然后对数据与系统PUE数值、能效之间的关联度进行分析,识别出最重要的21种变量后,再对深度神经网络进行训练,建立动态的PUE模型。

  最终,这套PUE模型的预测准确性达到99.5%。有了它,华为边缘AI推理平台Atlas 200可在1分钟内,从40万中初始组合中找出最佳的制冷策略,准确性和速度远超资深数据中心工程师的能力。

  从自动化迈向智能化

  基于华为自建大型节能数据中心的能力,以及iCooling等软件解决方案的技术优势,华为开始扮演IDC服务商的角色,参与外部数据中心的建设。

  例如2019年12月,中国移动宁夏数据中心(中卫)正式投产时,定位于超大规模、绿色节能的世界一流数据中心。根据官方披露的数据,在第一阶段冬季自然冷却的场景下,华为iCooling AI能效优化技术,帮助该数据中心的总能耗降低了3.2%,每年可节电40多万度。

  当AI学习能力得到进一步增强,数据中心负载提升和制冷方式的切换,其目标是完成每年节省600万度电的任务,相当于减少约300万千克的二氧化碳排放。

  按照中国工信部的要求,2022年新建大型、超大型数据中心PUE必须达到1.4 以下。如何运用新技术、新架构降低能源损耗、实现数据中心的绿色发展,成为IDC行业的关注热点。

  以华为乌兰察布云数据中心为例,采用间接蒸发冷却解决方案和iCooling能效优化技术,年均PUE降低至1.15。与传统冷冻水解决方案相比,该数据中心每年可节省耗电量超过1600万度,每年减少二氧化碳排放量约8140吨。

  再比如,贵安华为云数据中心在2021年9月投入使用时,对外宣布的PUE是1.12,相当于大部分的电力资源都在数据中心中被利用起来,基本与Google数据中心的能耗持平。华为对此也给予了很高的评价,认为达到了业界领先水平。

  这其中,AI和大数据分析技术起到了削峰平谷的作用,服务器可根据业务功率变化实时调整制冷功率,提升能效和运维效率。满负荷运行情况下,理论上每年可节省10.1亿度电和81万吨的碳排放。

  同样引入AI技术的,还有百度阳泉数据中心。其深度学习模型根据室外天气湿度、温度和负荷,自主判断并切换制冷模式、预冷模式和节约模式这三种冷水机组运行模式。

  此外,阳泉数据中心的AI智能预警功能,可以根据负载预判设备的运行情况,然后给出维护策略。单体数据中心的年均PUE最高可降至1.08,PUE明显优于1.59的全球平均水平。

  在数据中心自我进化的过程中,AI技术所能应用的范畴远不止调整PUE、降低能耗。

  阳泉数据中心已经从自动化向智能化的方向发展。例如数据中心在2018年尝试采用无纸化智能巡检,相关数据上传到远端电脑,专家系统通过分析现场运行数据,保障系统的稳定性。

  随着一系列AI技术在数据中心运营和管理中的作用越来越广泛,大公司在智能运维、风险管理、安全管理等方面,对AI给予了比较大的期许。

  数据中心的日常运维,有50%的人力消耗在巡检工作中。按照华为设计的数据中心AI无人巡检方案,远程抄表、图像识别、声音识别等多种技术,可让90%的人工巡检内容转变成自动化、远程无人处理。

  除此之外,华为基于自动驾驶技术的AI-Robot ,已经从图像/声音/气味识别、温度云图、资产管理等维度,自主规划路线,实时上报巡检信息,并生成巡检报告。

  如今,AI帮助数据中心开启了节能减排的新时代,而无人智能运维从“超前”变为“眼前”,既需要更多的成熟方案和技术攻坚,也取决于市场能否爆发新的需求。但无可否认,智能化的底座在给IDC行业带来从追赶到超越的更多信心。

0
相关文章