【IT168 资讯】日前北京裕阳创新针对用户的实际需求,以美国超微(Supermicro)服务器平台为基础,设计了高性能计算(High Perfermance Computing)集群解决方案,在参标众多服务器供应商中脱颖而出,一举中标中科院某研究所的高性能计算集群项目.高性能计算是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。高性能计算主要研究如下两类问题:大规模科学问题,象天气预报、地形分析和生物制药等; 存储和处理海量数据,象数据挖掘、图象处理和基因测序;高性能集群就是采用集群技术来研究高性能计算。

高性能计算(High Perfermance Computing)集群,简称HPC集群。裕阳创新针对各科研院所的实际需求,以美国超微(Supermicro)服务器平台为基础,设计了如下HPC集群方案。
在方案中,裕阳创新以在服务器领域著名的生产厂商Supermicro服务器平台和Intel公司新推出的64-bit Quad-Core Intel Xeon processor 5300系列处理器为基础,构建了极具性价比的HPC集群。

集群中节点的部署
在本集群系统中,用户节点、控制节点、管理节点和安装节点都使用原有集群的一台2U高配服务器,这台服务器称为主节点(Master Node)。本集群就是由24个计算节点(原有12个计算节点)和一个主节点(兼作计算节点)及一个12TB存储节点构成。
用户节点(User Node)
用户节点是外部世界访问集群系统的网关。用户通常登录到这个节点上编译并运行作业。

用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,我们采用了RAID(Redundant Array of Independent Disks)技术保证用户节点的数据安全性。
控制节点(Control Node)
控制节点主要承担两种任务
为计算节点提供基本的网络服务,如DHCP、DNS和NFS。
调度计算节点上的作业,通常集群的作业调度程序(如PBS)运行在这个节点上。
控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也采用RAID(Redundant Array of Independent Disks)技术保证。
管理节点(Management Node)
管理节点是集群系统各种管理措施的控制节点
管理网络的控制点,监控集群中各个节点和网络的运行状况。集群的管理软件也运行在这个节点上。
存储节点(Storage Node)
存储节点有如下配置:
高达12TB大容量存储
ServerRAID5保护数据的安全性
高速网保证足够的数据传输速度
安装节点(Installation Node)
安装节点提供安装集群系统的各种软件,包括操作系统、各种运行库、管理软件和应用。它还包括开放文件服务,如FTP或NFS。
计算节点(Compute Node)
计算节点是整个集群系统的计算核心。它的功能就是执行计算。
在本方案中,我们提供的所有计算节点CPU均采用64-bitQuad-Core Intel Xeon processor 5300系列处理器的产品,平台均采用美国超微(Supermicro)高可靠性服务器平台,配以业内知名品牌内存KINGSTON双通道DDR2 667 FBD内存,系统前端总线频率达到1333MHz。

英特尔革命性的"酷睿(Core)"微体系架构处理器,由于架构的全面升级,至强5300不再以高频率引领性能,与至强5100系列相同65nm制造工艺、双独立总线,LGA771接口。共享8MB缓存,1333MHz前端总线,此外技术上还拥有:宽位动态执行、智能功率特性 、先进缓存管理、智能内存访问还有高级数字媒体增强 。
技术指标
多核技术: 四核
64位计算: 是
时钟: 2.66 GHz
总线频率: 1333 MHz
二级缓存L2 Cache:4 MB ×2
插座:LGA771
工艺:65纳米
功耗:130 W
结构特点:增强步进技术, 基于交换需求, 虚拟技术, 64位技术, 高级智能缓存技术满足大负荷数据请求和响应。
新增计算节点系统总共由12节点组成,总共24颗64-bit Dual-Core Intel Xeon processor 5345处理器(主频2.33GHz/8M CACHE/四物理核心)。其中,12个1U节点做作为常规计算节点使用,原先1个2U单元做为用户节点、控制节点、管理节点、存储节点和安装节点使用(兼作计算节点)。常规计算节点配置了2颗Quad-Core Intel Xeon processor 5345处理器、16GB DDR2 FBD667内存、2块300GB SAS硬盘、双1000M 网卡。原有的2U存储单元配置了2颗Dual-Core Intel Xeon processor 5150处理器、8GB DDR2 FBD667内存、双1000M 网卡,6块300GB SCSI硬盘(做RAID5设计)。

网络系统
网络系统由原有的标准42U服务器机柜以及新增一台CISCO千兆48口以太网交换机组成。网络交换机的背板带宽达到了96Gbps。配有自动MDI/MDIX 和速率自协商,双工模式和数据流控制有助于改善对网络通信的控制。该网络系统具备如下特点:
·符合 IEEE 802.3 10Base-T、IEEE 802.3u 100Base-TX、IEEE 802.3z/ab 1000Base-T 标准
·基于标记的 IEEE 802.1p 服务级别,每个端口两个优先级队列
·IEEE 802.3x PAUSE 帧流控制,用于全双工运行
·所有端口上速率及全双工和半双工模式的自适应功能
·背压流控制,用于半双工运行
·所有端口上的冲突检测
·自动 MDI/MDIX,支持 4K MAC 地址条目
·综合 LED 指示灯面板,用于监测整体交换状况
·可安装在 19 英寸机架中及墙壁上,标准 1U 机箱
·内部电源设备
集群软件系统
集群系统的软件主要由操作系统、集群管理系统、并行环境编译系统构成,本方案中配置的软件系统安装清单见下表
