服务器 频道

采用Infiniband构建高性能计算平台

4. 案例分析
4.1. 气象行业高性能计算机群设计(<24节点)
4.1.1. 项目背景

    数值天气预报是现代天气预报的基础,数值天气预报水平的高低成为衡量世界各国气象事业现代化程度的重要标志。我国是世界上受气象灾害影响最严重的国家之一。二十世纪后半叶以来,全球变暖,极端天气气候事件增加,给世界和我国社会经济带来了巨大的负面影响。与此同时我国幅员辽阔,丰富多样的气候资源又给我们提供了很大的开发利用潜力。因此加强防灾减灾、趋利避害,针对极端天气气候事件和气候变化问题,迫切需要做好天气预报、气候预测和气候系统预估工作。

    在气象预报的工作中,反应速度已经越来越不能适应社会发展的需要,因此,提高气象预报的准确性和及时性已经迫在眉睫。某某气象局正是顺应当前预报工作中的新问题,准备建立一套先进的高性能计算集群系统,即满足自身的科学研究需要,又为社会各行各业的发展提供了有力的气象保证。

4.1.2. 需求分析

    在这套方案设计中,充分满足用户对该系统高效性、兼容性、可管理性和稳定性的要求。其中,高效性表现在系统本身能在用户要求的时间内完成相应的数值预报计算的任务,节点机采用先进的系统架构,网络设备具有高带宽、低延迟的性能。兼容性表现在该系统硬件采用商业化的设备,软件层面对操作系统和数值预报软件的全面兼容。可管理性表现在用户对设备和应用使用简便,方便管理。稳定性表现在系统硬件运行正常,数值预报软件能在硬件平台上高效快速的运行。

4.1.3. 方案设计

方案一



    计算节点选择曙光天阔R210A服务器,该服务器采用2路AMD Opteron248处理器,2G内存,73G热插拔SCSI硬盘。I/O节点同样采用R210A服务器,AMD Opteron248处理器,考虑到I/O节点数据存取比较频繁的特点,内存扩展为4G,硬盘扩展为2块146G热插拔SCSI硬盘。I/O节点同时用户登陆节点和管理节点使用。网络方面,采用三网分离的模式。计算网用于并行计算时的数据交换和计算通讯,数值天气预报作为通信密集型计算无论是通信次数还是通信量都很大,对网络的延迟和带宽都有较高的要求。针对这一特点我们采用Infiniband网络作为计算网络,Infiniband技术是采用RDMA传输机制实现了低延迟,高带宽的新型网络标准,满足应用的需要。数据传输网的特点是带宽要求相对较高,但对网络延迟要求并不高,因此选择性能适中的千兆以太网,并通过NFS的方式作为数据共享。而管理网主要是进行一些必要的系统管理、监控、登入等管理,同时又作为数据传输网络的备份,对网络性能的要求不高,因此使用一套百兆网络。采用三网分离的模式可以为各个网络之间提供互为备份的功能,提高了系统的高可用性。

方案二



    计算节点和I/O节点的选择与方案一相同,主要区别在于对网络的选择,这里计算网络和数据传输网络将实现双网合一,都是建立在Infiniband的高速网络上。对于计算网络是基于Infiniband的本地协议,它在操作系统看来HCA设备就像一个以太网卡一样,这使得TCP/IP应用不用修改就可移植到Infiniband平台环境,完全满足在以太网上的所有应用。而对于数据传输网的NFS共享存储的应用,是基于Inifiniband SDP(Sockets Direct Protoco)协议的NFS over SDP功能模块。SDP协议负责本地Infiniband包的高效通信,采用RDMA文件处理机制,实现了0拷贝,而TCP/IP需要使用buffer进行3次拷贝。在实际应用中,SDP的性能是以太网的6倍左右。

    方案中采用Silverstorm公司的24端口交换机IO9024。IO9024交换机内部采用Mellanox InfiniScale-III (Anafa-II)24端口交换芯片;支持24个10Gbps Infiniband端口,背板带宽为480Gbps;交换机只有1U;主要用于搭建24节点以下的集群。

主要特点包括:

* 每个交换机只有1-U,提供24 个 4X Infinband交换端口
* 交换机内部集成了完善的管理软件SMA、PMA、BMA
* 交换机内嵌的子网管理软件FM;通过连接交换机背板上的以太网接口可使用Infiniview和SNMP对交换机端口以及网络结构进行管理、监控
* 模块化、可热插拔的冗余电源和风扇;
* 支持IBTA 1.0 和 1.1标准

4.1.4. 建议配置


0
相关文章