服务器 频道

深入内部 解析联想深腾1800机群服务器

  机群,主流……

  【IT168评测中心】2001年的世界超级计算机TOP500排行榜显示,上榜的机群系统仅占8.6%,2007年这个数字上升到了81.29%——TOP500排行榜中机群系统占据了406席。今年刚刚公布的榜单显示代号“Roadrunner”的IBM机群凭借千万亿次的性能占据了头把交椅。机群,已经成为21世纪构建高性能计算机的一大趋势。

年份 机群数量 百分比 TOP10席位 最高排名
2001年11月 43 8.6% 2 4
2002年11月 93 18.6% 6 2
2003年11月 210 42% 7 2
2004年11月 294 58.8% 5 4
2005年11月 361 72.2% 2 5
2006年11月 361 72.2% 3 5
2007年11月 406 81.2% 2 4
2008年06月 400 80% 3 1

  机群(Cluster)系统是由多个计算机节点通过高速网络互联而成,可以协同执行计算任务从而提供极高的并行计算能力。相对于MPP系统,机群系统采用了主流通用处理、商品化量产服务器、Linux操作系统、较为成熟的高速互联技术,在性价比、可扩展性、可用性方面具有明显优势。

第一台万亿次联想深腾1800服务器
第一台万亿次联想深腾1800服务器

  深腾(DeepComp)1800是联想于2002年3月推出的基于IA架构的高性能机群系统,自诞生至今6年多的时间内,在集群基础架构、集群远程控制、集群单一镜像管理、集群作业调度、集群并行文件系统等方面攻克了一道道技术难关,已经可用于多个不同领域的不同应用。比如通过配置MPI、PVM、OpenMP、DSM、HPF等用户并行编程环境和工具,可以支持Message-Passing、Shared-Memory、Data-Parallel等科学计算编程模型;通过调整计算/登录结点、存储结点和计算网络的配置,可以支持计算密集型、I/O密集型和通信密集型等不同类型的应用。

  深腾1800服务器系统组成

  深腾1800服务器硬件由结点(计算结点、存储结点、监控结点、登录结点)、网络(计算网络、存储交换网络、管理网络、KVM系统)和基础设施(机柜、供电系统、散热系统、布线)三大方面组成。

联想深腾1800服务器系统硬件结构示意图
联想深腾1800服务器系统硬件结构示意图

  为了便于直观形象的向读者介绍联想深腾1800服务器,我们制作了如上所示的示意图,把相关功能的部分设定为相近色系,比如,存储相关的设备都是绿色,存储结点是浅绿色,磁盘阵列是略深一点的绿色,存储网络交换机是深绿色。

  不管是登录结点、监控结点、计算结点还是存储结点,一般都是采用的联想万全系列的机架式服务器。计算结点是深腾1800服务器的核心成员,用于执行用户程序,单机计算能力会明显的影响整个系统的性能;存储结点主要是用于向系统中其它结点提供存储服务,也可以挂接磁盘阵列等设备;监控结点用于监控系统各部分的运行状态;登录结点是通过服务域网连接终端用户,它允许用户登录到深腾1800集群所在的网络。

  上图中蓝色表示计算结点和连接这些结点的计算网络以及相关设备,之所以监控结点和登录结点也是蓝色,是因为在一些小型系统中,这些结点是身兼多职的,在任务繁忙的时候也会参与到计算中(有的系统中则是同存储结点复用的)。现在的深腾1800服务器采用Infiniband或者千兆以太网连接计算结点组成计算域网,前者具有高带宽低延迟但成本高的特点,后者虽然相对带宽低延迟长但是成本却有优势。

  存储相关设备在图中均为绿色,存储结点、磁盘阵列、光纤交换机、IP存储设备等。

  为了便于维护每个结点,深腾1800服务器配置了KVM切换系统,可以方便的把服务器内的任何一个结点的视频、鼠标和键盘重新定向到控制台上。(上图中橘红色部分都是KVM切换系统所能覆盖的)。

  配合联想LCOMS管理软件,管理员可以通过B/S架构对于每个一个结点、网络设备进行管理和配置。此外,远程用户如果有足够的权限,通过登录结点也能对于整个系统进行管理。上图中淡紫色区域所覆盖的设备都包括在这个网络中。

部署于上海交大生命科学系的深腾1800拓扑图

  在实际应用中,用户不必选择所有的系统组成部分,而是可以根据应用程序、计算负荷、预算等因素灵活的进行选配。上图所示的是联想于2007年年初部署在上海交大生命科学技术学院的深腾1800服务器的基本结构。在这个方案采用了12个计算结点、1个胖结点、1个管理结点、1个存储结点,其中计算结点均采用了联想万全R510 G6 1U机架式服务器,每个服务器配置了两颗Xeon 5300四核处理器,总共可提供96个计算核心。整个系统主要包括了两个千兆网络,一个用于计算网络,一个用于管理网络,一个标准机柜就容纳了整个系统。

部署于海洋大学深腾1800服务器拓扑图

  08年1月,联想部署在海洋大学的深腾1800服务器则相对复杂一些,它包括19个计算结点、1个管理结点/存储节点,一套千兆管理域网、一套高速千兆系统域网、一套视频切换系统、一套外置控制台、一套监控系统。从上图可以看出,19个联想万全R510双路四核计算结点采用了Infiniband网络互联为系统域网,而管理网络则是千兆以太网。

  深腾1800跨入到45纳米四核时代

  2006年11月份,英特尔推出了代号Clovertown的四核Xeon 5300系列处理器,联想万全R510 G6、R520 G6旋即采用了该系列处理器,更重要的是联想深腾1800服务器也马上将其部署在用户的应用中。比如2007年温州大学物理与电子信息学院科学计算平台项目就采用了联想深腾1800服务器系统,该系统的17个计算结点是配置了双路Xeon E5320处理器的R510机架式服务器,管理结点/存储结点则是R520,这套深腾1800服务器的双精度浮点峰值性能达到了1011.8Gflops。

联想万全R510 G6服务器
联想万全R510 G6服务器

  2007年以后部署的联想深腾1800服务器大多采用了万全R510 G6或者更新型号的服务器,比如上海交通大学生命科学技术学院、西北大学物理系、哈尔滨工业大学、中国海洋大学的深腾1800服务器都采用了万全R510 G6服务器。

  万全R510 G6服务器基于Intel 5000V芯片组设计,可以支持双路Xeon 5300系列和前端总线为1066/1333的Xeon 5400系列处理器,根据配置处理器不同二级缓存数量在4-12MB不等;服务器最大可配置双通道FBD DDR2-533/667内存,最大容量可达8GB;利用芯片组整合SATA控制器或者SAS控制器可支持RAID 0/1/10磁盘阵列模式,值得肯定的是该系统虽然是1U机架式服务器,却可以安装4个3.5英寸硬盘,这意味着配合适当的独立RAID卡甚至可以支持RAID5/6磁盘阵列模式;万全R510 G6服务器集成了Intel双千兆自适应网卡,支持网卡冗余、负载均衡等功能。

联想万全R515服务器已经大量的应用于深腾1800服务器
联想万全R515服务器已经大量的应用于深腾1800服务器

  2007年年底,英特尔发布了基于45纳米制程技术的Xeon 5400系列处理器,代号Harpertown。联想同期发布了万全R515系列服务器,该服务器外型同万全R510 G6非常的相似,芯片组采用了功能更强的Intel 5000P芯片组,同样支持双路Xeon 5300系列和前端总线为1066/1333的Xeon 5400系列处理器;相对于Intel 5000V芯片组,其内存子系统得以加强,可支持4通道FBD DDR2-533/667内存,通过提升内存带宽从而获得更加平衡的系统;此外这款服务器还设计有12个DIMM插槽,理论上最大可配置48GB内存,从而满足对于系统内存容量有较高需要的应用;万全R515 G6部分型号配置了256MB 8口SAS RAID控制器,可支持6个2.5英寸SAS硬盘或者3个3.5英寸SAS/SATA硬盘,支持包括RAID 5/6在内的多种高级磁盘阵列应用模式。

  2008年3月份之后,联想部署在各地的深腾1800服务器大都采用了万全R515服务器,比如部署于东方地球物理公司的联想深腾1800高性能机群,由248个计算结点和8个IO结点共256台联想服务器构成,本地内存容量和硬盘容量分别高达2048G和74.7TB。每个计算节点服务器均支持全新45纳米高-k的四核英特尔至强处理器5400系列,理论“峰值”为每秒40万亿次的计算能力,是迄今为止联想交付给客户的最高运算级别的高性能产品。

  在IT168记者就联想深腾1800服务器专题采访联想的过程中,发现联想的实验室、工厂中准备出货的深腾1800服务器均已经采用了基于45纳米制程技术的R515服务器。深腾1800服务器已经全面进入了45nm四核时代!

  存储结点和存储设备

  在典型的深腾1800服务器系统中,有监控结点、登录结点、管理结点、存储结点等多种角色,而实际应用中特别是在一些小型系统中,这几个角色往往由一台服务器担任,而且一般是承担存储结点的服务器来兼任。

联想万全R520 G6机架服务器
联想万全R520 G6机架服务器

  在2007年左右部署的系统中,往往会采用联想万全R520服务器作为存储结点,同时管理结点等角色也由它来担任。IT168评测中心的一份名为《自主创新 联想万全R520 G6服务器》的评测报告对于这款服务器进行了详细的介绍和多方面的测试。

  联想万全R520 G6汇聚了多种创新技术:LECOT(Lenovo Energy Consumption Optimization Tech)、全新设计的慧眼III服务器监控管理系统、前置自动开机故障诊断模块“Doctor Inside”、免工具快速上架技术、双VGA接口等等。

  万全R520 G6服务器不但可以支持双路双核Xeon 5000/5100系列处理器,更可以支持最新的四核Xeon 5300系列处理器;它设计有6条内存插槽,可以支持Register ECC/FB-DIMM DDR2内存,如果配置单条容量4GB的内存,理论上来说该系统最大内存容量可扩展到24GB;这款服务器整合6口SAS控制器,最大可以安装6个3.5英寸SAS/SATA拔硬盘,如果配置目前最大容量的SAS硬盘,可提供高达3TB的存储容量,万全可以胜任存储服务器的职责;双千兆网卡是基于ESB6321和Intel 82563EB 双端口PHY芯片构建的,支持英特尔加速技术,可以在提升网络效能的同时,降低处理器占用率;利用不同的转接卡可以同时支持3个PCI-X扩展卡,或者同时支持2个PCI-X扩展卡和1个PCI-E 8x扩展卡。


联想万全R525服务器

  在今年部署的深腾1800服务器系统中开始逐渐采用万全R525机架式服务器来取代R520服务器。万全R525服务器集成的SAS控制器支持 RAID0/1/1E等基本磁盘阵列模式,可选配具有256MB缓存的SAS RAID控制卡,换用不同的硬盘托架可支持6个3.5英寸硬盘和12个2.5英寸硬盘,可更好的胜任存储结点的职责。

联想万全R350服务器

  如果用户对于存储服务器的容量有更高的要求,那么可以选择联想万全R350 G6系列服务器。从上图可以看到,万全R350 G6服务器最多可配置10个3.5英寸硬盘,根据配置硬盘容量不同可以提供5TB甚至更高的存储容量。由于是一款5U高度的机架式服务器,因此它具有足够的空间容纳光驱、磁带机等设备,可为深腾1800服务器系统提供全面的存储功能。

  存储设备

  对于大型的深腾1800服务器系统或者对于存储有更高要求的应用,则需要配置更高性能的存储设备,这些设备必须具有很高的可靠性、极大的存储容量、较低的存取延迟和较高的I/O带宽。

  Lenovo SureFibre系列

  Lenovo SureFibre系列存储产品是中高性能的企业级全光纤存储系统,采用Intel Xscale 架构RISC处理器,完全硬件XOR校验;内部采用全冗余的系统设计,所有部件支持热插拔,支持冗余双主机通道的独立工作,其内部RAID子系统互为冗余,支持透明的故障恢复;具有杰出的性能、扩展性、可靠性和管理性。

  Lenovo-HDS AMS系列

  Lenovo-HDS AMS系列存储产品提供了高标准应用所需的性能和简化管理所需的智能,该存储系统能够提供运营商级别高达99.9998%的可用性。

  AMS系列存储产品采用全新的体系结构—HiPer II提高了系统的I/O能力。一般情况,模块化阵列系统采用的是内部共享总线结构,CPU是整个控制系统的核心;缓存、前端接口、后端接口通过共享的总线进行数据交换。而与传统共享总线结构不同,在AMS系列存储产品的系统中采用了内存交换结构,并且将这种结构通过一个专用的大规模集成电路来实现,这个大规模集成电路是整个HiPer结构的核心,而CPU只是用来处理管理及协调。这种结构极大地提高了系统的I/O性能。

  AMS系列存储产品在其控制器内部通路与主机连接通道两个部分均采用了全光纤通道标准设计,使存储系统在当今配置高容量磁盘时,形成了一个良好通路传输环境;并且在系统的后端磁盘环路结构中,采用了独有的负载分配的结构。无论是控制模块还是容量扩展模块中的磁盘都是平均分布在两个负载分担的光纤通道环路对上,确保了在任何容量规格配置的情况下都使系统具有优良的性能。

  • 支持RAID6,同一RAID组两块硬盘同时坏数据不会丢失。
  • Cache Partition Management和Cache Segment size提高cache 命中率,同时对关键业务可以分配cache专区,性能调优。
  • 支持磁盘漫游,此功能意味着不再需要将数据从备援写回到替换磁盘,降低Rebuild次数,这对于大容量高密度的硬盘意义重大。
  • 虚拟端口技术,每一个物理端口支持128个异构主机平台,各主机拥有自己的存储空间,没有数据覆盖危险。

  Lenovo Brocade系列光纤通道交换机

  Lenovo Brocade系列光纤通道交换机可以让中小型用户轻松地部署和配置经济实用的SAN系统。

  • 为入门级SAN提供了一个低成本、高灵活性的基础设备,也可作为“核心-边缘”SAN环境中的边缘交换机。
  • 经济实用的可扩展性,可从单交换机Fabric扩展到全Fabric网络构架,端口数量可按需从8个扩展到12或16个(4个端口为一个扩展单元)。
  • 使用EZSwitchSetup安装向导,SAN的配置工作只需通过3个步骤和点击鼠标即可完成。
  • 向后与现有Brocade SAN光纤网络兼容,保护投资。

  基于QLogic SilverStorm的InfiniBand计算互联

  现在的深腾1800服务器采用Infiniband或者千兆以太网连接计算结点组成计算域网,前者具有高带宽低延迟但成本高的特点,后者虽然相对带宽低延迟长但是成本却有优势。我们在联想公司看到了采用这两种互联方式的深腾1800服务器。

SilverStorm 9000系列InfiniBand交换机
SilverStorm 9000系列InfiniBand交换机

InfiniBand交换机端口
InfiniBand交换机端口

  联想深腾1800服务器采用了QLogic SilverStorm 9000系列设备,上图所示的是SilverStorm 9024 InfiniBand交换机,该产品提供了24个4x端口,支持SDR、DDR配置以及混合,每端口相应带宽可达10Gbps和20 Gbps,而延迟低于140ns。SilverStorm 9024支持SNMP、API管理协议,支持代外管理,可无缝同其它SilverStorm交换机产品整合。

型号 高度 最大IB端口 最大4G FC端口 最大10G以太网端口 DDR
9240 14U 288 64 16 支持
9120 7U 144 32 8 支持
9080 7U 96 32 8 支持
9040 4U 48 32 8 支持
9020 2U 24 16 4 支持
9024 1U 24 N/A N/A 支持
9024FC 1U 24 N/A N/A 支持

  采用不同型号的InfiniBand交换机,深腾1800服务器可获得24、48、96、144、288 InfiniBand端口,因此可以很容易的扩展到288个结点的集群规模。

  布线、散热和供电

  足够的电力供应、良好的散热和方便的布线是确保高效、低耗的建设和维护深腾1800服务器的前提条件。

深腾1800服务器的机柜专门设立了走线槽
深腾1800服务器的机柜专门设立了走线槽

  深腾1800服务器的机柜专门设立了走线槽,如上图所示所有的线缆会被收纳在走线槽中,从而避免了走线在机柜内部同其它设备发生空间干涉。由于走线槽具有较为充裕的空间,因此除了容纳必须的线缆之外还能处理冗余走线。在很多深腾1800服务器中还采用了上走线设计,进一步节省了机柜内的空间。

整齐的走线
整齐的走线

  近期的一些联想深腾1800服务器机柜没有采用走线槽设计,而是将走线固定于专门设计的机柜内侧。只要有足够好的装配工艺,这样的走线方式也能获得整洁效果,而且今后如果需要维护线缆会更加直观和方便。

位于机柜顶部的镂空设计
位于机柜顶部的镂空设计

  传统的机柜风道设计为“一”字型,也就是冷空气从机柜前方进入然后从后方排出。但是由于热空气比冷空气要轻,因此流经结点的热空气会聚积在机柜后部上方,从而影响这周围结点的运行。为了解决这个问题,联想将机柜顶部后方设计为镂空方式,因此热空气不但可以从机柜后方排出还能从上方排出,因此这种“倒T字”型风道更利于散热。

全镂空设计的机柜柜门
全镂空设计的机柜柜门

  早期的深腾1800机柜前后门并非全部镂空。根据模拟仿真测试,联想的工程师确认机柜前后门镂空的面积比例应该大于65%。最新出货的联想深腾1800机柜前后门为全镂空设计。

深腾1800服务器供电输出接口
深腾1800服务器供电输出接口

外部供电接入到深腾1800服务器供电单元
外部供电接入到深腾1800服务器供电单元

  深腾1800服务器的供电系统采用的是支持分时上电和状态监控的SPDU4000供电单元,它最大可提供39路输出,可根据用户设定通、断顺序和时间间隔分时上、下电源,避免多路设备同时接通或断开电源时而产生的瞬间大电流冲击造成的保护器误动作、设备之间的干扰和对电网的污染,实现和满足系统运行对设备启、停有先后时间顺序关系和系统操作程序的技术要求。

供电电源数字表
供电单元数字表

  SPDU4000多路输出单元提供了三个数字式显示表,可分别显示负载状态、电流状况和过载警报等信息。用户通过这3个数字表直观、快速的判断供电电源工作状况。

  结论

  对于普通读者和非高性能服务器领域的技术人员而言,能够获得接触高性能服务器的机会并不多,我们IT168评测中心花费了几个星期的时间研究联想深腾1800服务器的技术白皮书,并且通过拜访联想的实验室和工厂,获得了关于深腾1800服务器的相近的第一手资料。通过本文,希望能够掀开高性能服务器上的神秘面纱,使得每一个技术人员和每一位读者都能“身临其境”的了解目前国内高性能服务器市场上商业应用最成功的深腾1800服务器。下一篇文章,我们将会对于深腾1800服务器进行实地的Linpack测试……

0
相关文章