【IT168 专稿】7月16日,中电标协高性能计算机标准工作委员会在北京召开第五次工作会议。高标委在会上宣布开通了其官方网站www.hpcsc.org,并与中石油东方地球物理公司签署了合作备忘录,计划共同推进国内石油勘探领域高性能计算机行业应用标准化工作。曙光公司研发中心总经理邵宗有在会上做了《高性能绿色计算技术及节能标准设想》的报告。
今天,高性能计算中心、数据中心的能耗问题非常严峻,据统计,仅2007年一年我国服务器电源和冷却的费用就高达19亿美元,整个IT设备的电力消耗达到300-500亿度。象中石油东方地球物理公司数据中心、上海超级计算中心等机房每天的电费就达到数万元,一年下来,上千万元的电费已经让这些企业感到了巨大的成本压力。
邵宗有谈到,除了能源成本之外,未来几年中,很多过去的老机房很可能会因为供电不足而被淘汰。据统计,从1992年到2008年间,由于多核CPU、刀片服务器、高密度计算的发展,过去一个满配的机柜只需要几百瓦特的电力,而现在使用1U的机架服务器,一般需要2000瓦电力,如果使用密度更高的刀片服务器,甚至高达4000多瓦特。而实际上,很多老机房的机柜供电都达不到这一要求,使得42U高的机柜往往只能放几台服务器,宝贵的机柜空间被大大浪费。
两类不同应用 三级节能体系
为此,高性能绿色计算技术受到了国内外企业和专家学者的广泛关注。邵宗有表示,目前曙光公司已经提出了高性能计算系统的绿色计算框架,分别从节点级、集群级和系统级三个层面来进行能耗监控管理,提高能源使用效率,并且已经取得了一些实效性技术成果。
“比如,今天的CPU其实已经提供了大量的接口给下游的系统厂商和软件厂商,通过这些接口可以实现降耗的目的,只不过大家以前没有意识到,很少去开发利用它们。”邵宗有告诉记者,曙光已经开发成功了相应的功率控制软件,并且在中石油东方地球物理公司取得了成功应用,据测试可以减少32%的能耗。其原理其实很简单,就是根据负载需求情况,通过实现降低CPU主频、关闭部分核心、休眠、待机等手段来调节降低功耗。在东方公司,采用的主要是待机的办法,即当某个机柜不承担计算任务时,让其自动处于待机状态,一旦需要使用,在2-3秒钟内又可以唤醒,这跟大家熟悉的“人走灯暗”的灯光亮度自动调节系统一样,仅仅这一个手段,功耗就可以减少30%左右。
邵宗有进一步解释说,高性能计算机的能耗问题要分两种典型应用环境来看待——科学计算和信息服务。对于石油勘探、超级计算中心等用户来说,由于主要进行的都是科学工程计算,强调CPU的浮点计算性能,其负载在空间上存在一定的不均衡性,即当没有计算任务时,整个、整个的机柜就会处于停运、空闲状态,这时就可以通过作业调度让腾出空来的机器去休眠、待机,降低功耗。曙光还在开发基于功耗的调度系统,不仅给应用分配计算资源,也分配功率资源,届时用户可以根据自己对性能和节能的不同需要来选择。
而对于用在信息服务领域的高性能计算集群,如百度、网游等行业,由于大多是I/O密集型应用,CPU的平均利用率较低,其负载在时间上存在严重不均衡的现象,比如晚上和白天的负载可能大相径庭。对此,邵宗有谈到,曙光目前正在开发基于VMware的虚拟机集群系统,“跟物理集群相比起来,由于一台物理机上面跑了多个虚拟机,在调节能耗时只需要关闭若干虚拟机,而不是整台物理机,因此调节的精度会更高。”
除了针对IT设备本身的能耗控制,耗电量占整个机房一半的供电制冷等设备也同样关键,特别是要让UPS、空调和IT设备能够实现动态联动。邵宗有透露,目前曙光正在研发以热量跟踪为基础的功热换算模型,以更精细地控制空调电源等设备的功率与能耗。
高性能计算机节能评测与标准
在高性能计算机节能测试和标准制定方面,早在2008年5月,高标委成立了中国高性能计算机节能评测实验室,挂靠在中国电子技术标准化研究所计量与检测中心,迄今已经开展了包括服务器能效、服务器效能、AMB(高速缓存芯片)节能芯片、节能评测方法等一系列研究工作。计量与检测中心主任项道才在会上也谈到,目前服务器效能的基本指标已经具备,下一步需要对不同领域进行细化;在能效测试方面,则会参照国际上SPECpower的设计思想,以TPC-C为负载,推出自己的测试工具,以对不同代或不同厂商的服务器进行能将测试。
邵宗有谈到,将根据不同负载应用情况从三个方面入手,一是“定额连接负载”,评测实际使用环境下的能耗情况,这对于事务处理很有用;二是“高性能计算负载”,用国内一些关键应用如气象方面的Grapes、石油勘探方面的Geoeast国产软件的核心算法来评价各个领域高性能计算机的能耗评测,不一定要借助于国外的应用算法;三是开发一些评测软件,如悬浮负载,通过人为策略控制CPU的负载,评测不同负载情况下的能耗水平,以让能耗评测的标准更加合理。