服务器 频道

曙光中尺度数值气象预报系统解决方案

  【IT168 资讯】气象信息是涉及国计民生的重要基础资源,已广泛深入到人类活动的各个方面。国家在经济、社会、环境、外交、国家安全、可持续发展的各个领域,都需要气象工作提供可靠的保障。目前气象预报已从传统的建立在天气气候定性理论、数值统计与预报员经验基础上的半经验半理论的定性方法,发展到以大气科学理论为基础,综合运用科技最新成就,在高性能计算机平台上完成的现代气象数值预报。

  我国在20世纪80年代末到90年代初,建立起正式的数值预报业务,目前数值预报已经成为各种业务天气预报的最重要的基础和持续提高业务天气预报准确率的根本途径。

  中尺度气象预报模式

  中尺度气象是现代气象科学中发展迅速的一个重要分支,它所研究的大气中尺度运动,关系到区域重要灾害性天气的生消和发。它一方面应用卫星、雷达、风廓线仪和自动观测站等一系列新的探测工具,通过中尺度野外试验,揭示中尺度观测事实;另一方面通过中尺度数值模式,对中尺度天气过程进行深入的模拟研究和预报试验。随着近年来计算机技术的迅速发展,中尺度数值模式已日趋成熟,成为中尺度气象的一个重要的研究和应用手段。

  中尺度数值气象预报模式有许多,其中MM5是目前国内外应用最为广泛的模式,被广泛的应用于国内外各气象部门和相关机构。WRF模式是在MM5模式上发展起来的新一代中尺度模式,它将逐渐的替换MM5模式。GRAPES模式是中国气象局自主开发的新一代数值预报系统,它是中小尺度与大尺度通用的先进数值预报系统,目前国内很多气象部门已经在对GRAPES进行研究和应用。

  高性能计算机解决方案

  中尺度气象预报模式的特点和对环境的要求

  一、计算量巨大

  中尺度气象预报模式有着惊人的计算量,同时由于气象预报的特点决定了其极高的实时性,要求模式必须在指定的时间内完成运算。另一方面,人们对气象预报的精度提出了越来越高的要求,目前预报精度从几百公里、几十公里提高到几公里,而这大幅度提高了模式的计算量。数值气象预报对计算的这一需求,靠单个CPU或普通的计算机根本不可能完成,必须利用并行计算。一方面,将模式预报软件通过消息传递或者共享存储的方式并行化,另一方面需要高性能并行计算机。目前绝大部分中尺度气象预报模式都已经完成了并行化,如MM5、WRF、Grapes既支持MPI消息传递并行,又支持OpenMP共享存储并行。

  二、通讯极为密集

  由于模式都是并行软件,同时一般都采用有限差分格点模式并行计算,所以运行中尺度气象预报模式时,各个CPU之间的通讯量非常惊人,且模式对通讯的性能要求非常之高。如MM5的通讯既包括母域和嵌套域之间的域间通讯,又有各个域内部不同数据划分之间的通讯。所以这就要求高性能计算机有高性能的通讯网络。

  三、实时性强、定时运行

  气象预报本身的特点决定了其要求很强的实时性。同时,预报系统要求定时定点自动运行,无需人工干预。

  四、主模式是计算量之所在

  从软件的处理流程上看,一般分为前处理、主模式和后处理。前处理包括资料的下载、数据同化等等,后处理主要是指图形化处理等,前/后处理一般对计算机要求不高。主模式是整个系统的主要部分,也是主要计算量所在,这个部分是对计算机性能要求极高。

  由于预报模式上述特点,它对计算环境有如下要求:

  1. 机群系统(Cluster)或者SMP系统或者NUMA系统,其具有较高的处理性能。

  2. 一定容量的存储空间,能存储一定时间的预报数据(如一个月)

  3. Linux或者Unix操作系统

  4. C和Fortran 77/90编译环境

  5. MPI和OpenMP并行环境

  6. NCARG图形库和图形显示系统,如MICAPS或GrADS或VIS5D或RIP等

  7. 保证系统能获取数据资料,如T213资料等

  对于特点的一些模式,它还有一些特点的要求。如WRF模式还要求Perl和NETCDF环境。

  对于构建一个中尺度气象预报系统,在选择基础硬件环境时,以下三点是非常重要的。

  1. 高性能,特别是浮点处理性能

  2. 高性能网络环境

  3. 系统的高稳定性

  下面是曙光公司提供的针对不同的气象部门提供的整体解决方案。

  1.1. 小规模解决方案

  小规模解决方案主要应用于地市级气象预报部门,解决一个地市48小时以内的短期天气预报,格局一般在12-18公里左右。这个解决方案也可用于小型环保部门或气象科研部分。

  1.1.1. 机群解决方案

  系统结构图:


  系统组成:

设备

主要用途

曙光4000机群系统

管理节点

1.管理整个系统,同时又是作业递交节点,用于在其上完成作业的递交
2.
自动下载数值预报资料
3.
兼作存储节点,存储用户数据和应用数据
4.
兼作登入节点,是外界访问整个机群系统的入口
5.
兼作编译节点,在其上完成模式开发、调试、编译等工作

计算节点

完成主模式的计算

千兆以太网

1.计算网络,完成模式并行运算时各个节点之间的数据通讯
2.IO
网,各个计算节点通过其访存管理节点上的数据

百兆以太网

1.管理网络,负责机群管理系统的网络通讯、用户管理信息的传递以及机群监控信息的传递
2.
同时又是计算网络的备份

曙光机群管理系统

1.包括曙光机群监控系统、曙光机群管理系统、曙光机群部署系统、并行命令系统和曙光作业调度系统
2.
负责整个机群的管理、监控,同时也负责用户作业的递交、管理等

曙光SKVM系统和机群控制台

1.通过其,系统管理员完成机群系统的最基础的管理和控制

曙光机群专用机柜和电源系统

1.承载整个机群系统
2.
整个系统的供电,以及电源保护、负责均衡、分时上电等

  该方案突现出以下几个优势:系统配置8-16个计算节点,用户可以在少了投资的情况下很好的满足地市级气象部门的预报需求;整个系统虽然不大,但是包含了气象模式处理的绝大部分系统,在其上能运行绝大部分气象模式,特别适合气象研究和开发部门。同时,配有机群作业调度系统,能轻松的保证多个用户同时使用和运行模式;采用机群的方式构建整个系统,相比于传统的RISC小型机具有极高的性价比;采用X86体系结构和Linux操作系统,系统具有良好的兼容性和可移植性,运行于PC机上的软件能不用移植而直接在其上运行。

  在此方案中值得注意的一点是,中尺度气象预报模式CPU和CPU之间的通讯极为频繁,它不仅对计算网络的带宽有很高要求,对网络延迟的要求更高。作为计算网络的千兆以太网在很大程度上影响了系统的总体性能。由于并行计算的通讯是多对同时通讯的模式,所以要求交换机必须是无阻塞的线速交换机。

  1.1.2. 二代小型机解决方案

  系统结构图:

  配置说明:

设备

详细配置

数量

曙光二代小型机

曙光天演EP850或者EP430服务器
配置:48颗双核高性能CPU816GB内存,48146GB SCSI硬盘

1

存储系统

曙光DS2120 SCSI盘阵,带46146GB SCSI硬盘

1
(可选)

操作系统

LinuxRedhat AS LinuxSuSE Linux
或者Soliars

1

并行环境

包括:MPIOpenMP

1

编译器

PGI C/C++编译器
PGI Fortran 77/90
编译器

1

气象预报软件

包括MM5WRFGrapes

1

图形库

包括NCARMICAPSGrADSVIS5DRIP

1

数学库

高性能数学库ACMLBLASLAPACKScaLAPACK

1

  方案优势:

  二代小型机是继承了第一代RISC小型机的优点并拓展第一代RISC小型机的应用而发展起来的高性能计算机。在继承了第一代RISC小型机高运算处理性能、高可靠性、高IO性能等优点的条件下,二代小型机相比于其前辈具有以下优势:

  1.程序移植性增强

  二代小型机基于X86的体系结构,可以轻松完成应用的移植。目前曙光公司推出的EP850、EP480、EP430、EP420产品可以将用户近90%实现移植。

  2.扩展性增强

  抛弃传统小型机依托的专用系统设计,采用通用标准设计,使得第二代小型机可以轻松跟随服务器产品技术的发展,而不受限于单一硬件厂商发展的制约。

  3.易管理、易维护

  第一代RISC小型机采用专用的硬件、软件系统,系统管理员必须经过专业培训。而二代机采用标准化的硬件和Linux操作系统,易于系统的管理和维护。

  4.价格明显低于第一代小型机,性价比高

  由于第二代小型机在设计时吸收第一代小型机优点的同时,顺应时代的变化,在保证性能的同时使得其产品成本大幅下降,目前第二代小型机的价格相当于同类传统小型机的产品的30%-50%的市场价格。曙光EP850目前市场价格相当于同类第一代小型机价格的40%左右。

  同时,由于采用标准化的软硬件,二代机的价格优势不仅仅在设备采购时,设备的维护和运行成本在大幅降低。

  1.2. 中规模解决方案

  中规模解决方案主要应用于省级气象预报部门,解决一个省48-72小时以内的短期天气预报,格局一般在3-9公里。

  这个解决方案同时也适用于大中型环保部门或气象科研部分。

  系统结构图:

  系统组成:

设备

主要用途

曙光4000机群系统

管理节点

1.管理整个系统,
2.
同时又是作业递交节点,用于在其上完成作业的递交
3.
兼作登入节点,是外界访问整个机群系统的入口
4.
兼作编译节点,在其上完成模式开发、调试、编译等工作

存储节点

作为NFS或其它文件系统的服务节点,负责其它节点对系统存储系统的数据访问

SAN存储系统

存储用户数据和应用数据

计算节点

完成主模式的计算

图形工作站

用于MICAPSGrads图形显示

数据资料接收服务器

下载数值预报资料,并将其存放到SAN存储系统中

Myrinet或者Infiniband

作为计算网络,完成模式并行运算时各个节点之间的数据通讯

千兆以太网

1.作为IO网,各个计算节点通过其访存管理节点上的数据
2.
同时又是计算网络的备份

百兆以太网

1.管理网络,负责机群管理系统的网络通讯、用户管理信息的传递以及机群监控信息的传递
2.
同时又是IO网络的备份

曙光机群管理系统

1.包括曙光机群监控系统、曙光机群管理系统、曙光机群部署系统、并行命令系统和曙光作业调度系统
2.
负责整个机群的管理、监控,同时也负责用户作业的递交、管理等

曙光SKVM系统和机群控制台

1.通过其,系统管理员完成机群系统的最基础的管理和控制

曙光机群专用机柜和电源系统

1.承载整个机群系统
2.
整个系统的供电,以及电源保护、负责均衡、分时上电等

  曙光公司以应用为导向、以满足用户实际需求为目标,一直致力于气象领域和其它重点应用领域高性能计算机及其解决方案的研究与开发。它不仅着眼于集群的生产和研究,同时还密切和应用相结合。曙光公司于2002年推出了基于MM5模式的曙光气象专用机,并获得了多个奖项。在2004年初,曙光公司与中科院计算所合作,在全球首次完成了MM5在X86-64(Opteron)平台上从32位至64位的移植工作,并在国内外得到的广泛的应用。

  数值气象预报在国内的发展越来越快,使用也越来越普遍。同时数值气象预报对高性能计算的依赖程度也在不断的加强,对高性能计算机的要求也越来越高。但另一方面,相比于其它的HPC应用,数值预报有着其显著的特点,在设计高性能计算机系统也与其它系统有着一定的区别。

  去年,曙光解决方案中心在推出MM5、Grapes、WRF解决方案,此次在以上方案的基础上,推出中尺度数值气象预报模式系统的整体解决方案的中小规模系统的解决方案,特别推出了基于二代小型机的解决方案,使得用户有了更多的选择。可以根据自身的特点,选择性价比最优的高性能计算机系统。

0
相关文章