服务器 频道

体验万亿次 深腾1800服务器国内首测

  深腾1800机群服务器的软件体系

  【IT168评测中心】在《深入内部 解析联想深腾1800机群服务器》一文中,我们IT168评测中心对于联想深腾1800服务器的硬件系统进行了全面的介绍。读者通过阅读该文可以对于目前在商用高性能服务器领域取得了很好的市场成绩的深腾1800服务器有了直观的认识。本文将会对于深腾1800服务器软件系统结构进行详细的介绍,同时带领读者一起构建一台深腾1800服务器并且测试其性能。

深腾1800服务器软件系统结构

  按照逻辑结构划分,深腾1800服务器软件系统可分为设备系统固件层、结点系统软件层、集群系统软件层、应用支撑环境层、用户应用环境层:

  • 设备系统固件层:比如结点的BIOS、适配器的固件
  • 结点系统软件层:安装在结点上的操作系统、设备驱动程序、文件系统等等
  • 集群系统软件层:用于管理集群的管理软件,这主要包括集群管理系统、集群监控系统和作业调度系统等。
  • 应用支撑环境层:用于支持应用程序的并行环节、编译器、高性能数学库等等
  • 用户应用环境层 :科学工程计算类的实际应用

  对于不同的机群服务器而言,除了集群系统软件层其余的层所涉及的可能都是通用组件,比如不同品牌的机群都可以采用Redhat操作系统,可以采用相同的磁盘控制器和硬盘,也可以运行相同的编译器、数学库等等。也就是说机群之间主要的区别是其管理系统,而将机群中的分布资源组织成为一个有机整体的是单一系统映像管理技术,联想深腾1800服务器采用了名称为LCMOS操作管理系统。

  LCMOS操作管理系统基于B/S架构设计,具有图形化管理界面,主要包含集群管理模块、作业调度模块、远程控制模块、信息监视模块和告警管理模块。利用LCMOS,用户不必关心某个资源的具体状况,可以统一对于深腾1800服务器的硬件、软件、应用进行高效的管理。

  联想集群管理模块LCMS

  集群管理模块LCMS采用了B/S结构设计,管理员可以通过中文图形界面对于深腾1800服务器内的各个结点进行管理。从结构上看,LCMS采用了分布式设计,其相应的功能模块需要部署在深腾1800服务器内各个结点上,控制端则需要部署在管理结点上(在大部分深腾1800系统中管理结点并非专用,一般是同登录结点、监控结点和存储结点中的一个或者几个复用一个物理结点)。 从管理的角度体现了集中的理念。

联想集群管理模块LCMS结构示意图

  LCMS模块采用了分层结果,如上图所示LCMS可以分为界面层、中间层和结点服务层。机群内的登录结点会对外提供Web服务器,用户只要在任何一个安装了浏览器且具有访问/使用深腾1800服务器权限的计算机上都可以利用Web图形界面对深腾服务器进行操作;对外它负责同Web服务器通讯,对内可操作存储各个结点信息的数据库,其中的LPC进程负责协同各个结点并行操作;较大规模的机群,结点服务层又可以分为SD(Service Deamon)子层和SVL(Service Virsual Layer)子层。可以看到通过这种树状结构的级联方式,深腾1800服务器可以获得大规模网格资源。

  LCMS结点服务层以服务的形式运行在受控结点上,联想提供了适用于Windows、Linux和AIX等主流网络操作系统的模块,管理员通过图形化界面可以对于受结点进行无差异化的管理。

  LCMS安全性是从多个方面予以保护的:首先是保证用户的合法性。系统在使用时对用户身份进行认证,为每个用户设置使用权限,禁止用户执行权限以外的操作。其次是保证用户操作的合法性,主要防止用户误操作对系统引起的危害,比如结点的上下电、重启等操作都采取了确认提示的方法,防止用户误操作。为了保证网络传输的可靠性和安全性,各个层之间的通信都采用了加密技术实现,这也是一个重要的安全特性。

  利用LCMS可以执行并行命令、用户管理、登录控制、服务管理、系统配置等功能:

  • 并行命令为用户提供在多个结点上并行执行命令的功能,这些命令主要是基于文件系统的管理命令,包括文件显示(cat) 、文件列表(list) 、远程拷贝(可从单一结点拷贝到任意的多个结点上)、删除、移动,同时用户也可以灵活定制自己的并行命令。
  • 用户管理对集群NIS域中的用户和用户组进行管理,包括增、删、改操作,这些对单一控制台上的用户和用户组的操作会实时的反映到每个结点上。
  • 登录控制分别从结点机粒度和用户粒度对登录的禁止和允许进行灵活的控制。
  • 服务管理提供集群的一些主要网络服务配置功能,如NISNFS等。通过LCMS,这些复杂的网络服务配置工作被大大简化。
  • 系统配置主要是设置管理结点的范围,用户可以将暂时不需要管理的结点状态置为不可用,此后系统所作的任何其他操作将不起作用,这样就很大程度上增加了系统管理的灵活性。此外,系统配置还能配置结点或机柜的基本信息,如名称、编号、类型等等,这都是其他管理操作的基础。

  联想集群作业调度模块LJRS

  在集群系统的使用过程中,如何方便用户提交和管理作业?如何合理分配资源和调度作业?如何提高整个集群系统的资源利用率和吞吐率?……这是影响集群系统实际使用价值的一系列关键问题。LCOMS中的作业调度模块LJRS是建立在操作系统与用户程序之间、用于统一管理和调度集群系统中作业与资源的系统软件。它能够控制用户提交作业,充分地利用集群硬软件资源及CPU时间。

联想集群作业调度模块LJRS

  LJRS包括提交结点(支持用户通过图形化界面或命令行方式提交命令)、用户服务器Server、作业调度器Sched、作业执行器Execd。

  • 用户命令可分为普通用户、操作员和管理员三级,均可以通过命令行或图形用户界面方式运行,是用户和系统管理员进行作业提交、作业监控和系统管理配置的接口。
  • 用户服务器Server负责管理集群中的作业和资源信息,维护着集群中的结点、队列、作业和用户权限信息的表,负责接收客户端发出的各种请求,来管理作业、队列、结点和资源等对象。作业调度器Sched根据执行结点反馈的信息作出调度决策然后下达给用户服务器。
  • 作业调度器Sched通过从用户服务器Server收集集群中所有结点上的作业和资源信息,从执行结点Execd获取负载状态,根据一定的作业调度和负载平衡结点选择策略,决定在哪些执行结点上运行。作业调度器Sched并不直接给执行结点Execd下达指令。
  • 作业执行器Execd主要实现三个功能:
    • 一是根据用户服务器Server的指令,运行作业、建立资源限制、监测作业占用的资源、通知用户服务器作业运行结束等;
    • 二是资源管理功能,响应Sched的资源监测请求,如作业的运行状态和可用内存等;
    • 三是和运行作业的其他结点上的Execd通信,确保并行作业的正常加载和结束。

  LJRS提供了先入先出(First In First Out)、资源预留和回填(Reservation and Backfill)、负载均衡等作业调度策略。

  • LJRS对系统级、队列级和用户作业级实现了不同的负载均衡结点选择策略。
    • 对于系统级来说,每个队列有一种结点选择策略。
    • 对于队列级,不同的队列都可以由系统管理员设置不同的策略。
    • 对于用户级,用户可以为自己的作业设置一个结点选择策略。
  • 对于结点分配策略,该系统提供了公平共享和独占两种策略。通过对不同的系统、不同的作业配置不同的负载均衡策略和结点选择策略,可以更好的提升系统的利用率,同时也提高了作业的执行效率。
  • 资源预留和回填作业调度技术能确保大型作业不被延迟的前提下,允许小作业在这些预留的CPU上运行,这充分利用了大型并行作业期间的预约资源,提升了深腾1800服务器的利用率。

  LJRS可支持MPI、PVM和OpenMP等作业,能批处理和交互式方式运行并行作业,也能运行串行作业。

  LJRS提供了基于Web页面的中文图形化操作界面,显著提升了深腾1800服务器的易用性。在其配置界面中主要包括以下三个功能模块:

  • 系统基本配置界面,提供了对系统和队列配置的查看和更改,对结点分配策略和资源的配置修改;
  • 结点配置界面,提供了结点配置信息的查看和更改;
  • 作业管理界面,提供对作业的提交、作业脚本web编写、属性的更改、监控、查询等操作,同时实时的显示作业的执行状态;
  • 命令行操作界面,提供用户在web界面中使用命令行操作。

  集群监控LCSM

  在文章的第一页,我们介绍深腾1800服务器集群包括了主要包含集群管理模块、作业调度模块、远程控制模块(LCRC)、信息监视模块(LCIM)和告警管理模块(LCWM),后面的三个模块分别用于集群结点的远程管理、系统硬件和软件运行信息监视以及系统故障报警。由于它们之间相对于具有一定的独立性,各自有较为明确的应用环境,又具有一定的相互关联,因此将它们统称为集群监控模块(LCSM)。

联想集群监控LCSM结构示意图

  远程控制模块LCRC的实现主要依赖于集成在服务器主板上的BMC控制器芯片,在大部分联想万全服务器的主板上都集成了遵循IPMI v2.0规范的芯片。这颗芯片可以支持网卡设备,只要服务器在加电的状态下即可工作,它本身如同一个极度精简的系统,可以允许远程用户连接到这台服务器,然后进行带外远程操作。远程用户可以进行一些“本地操作”,而不需要操作系统和远程控制软件的支持:

  • 进行设备ID灯控制、远程开机、远程关机、远程重启、和SEL清除等操作
  • 借助IDER功能,远程用户可以将控制台的光驱、软驱重新定向到被管理设备上,将其虚拟成远程服务器本地的设备
  • 通过IPMIv2.0定义的SOL(Serial over LAN)功能远程接管服务器,进行远程BIOS、驱动升级、启动到DOS进行诊断等操作,使用户有可进行远程的服务器诊断和修复

  管理代理则是运行在操作系统上的应用程序,目前可以支持Windows和Linux操作系统,负责对被管服务器的数据采集、告警事件发送,以及处理来自管理中心的命令请求对服务器实施控制。管理代理既可以采集来自操作系统的信息,也能够采集来自BMC传感器的硬件健康信息。

  信息监视模块(LCIM)和告警管理模块(LCWM)可以被认为是建立在BMC和管理代理上的两个逻辑功能。信息监视模块LCIM可监视硬件健康信息(如CPU信息、主板风扇转速、主板温度等),操作系统运行信息(如CPU利用率、内存使用情况、进程信息等);告警管理模块LCWM可预设告警阀值,当系统发生告警时,能够及时并以多种方式通知给系统管理员,支持丰富的告警信息,如服务器连接状态、硬件健康信息告警、进程CPU利用率超门限告警等。

  管理代理采集的信息比如系统信息、服务器资产和状态信息、服务器事件与告警信息、近期进程历史信息等都保存在深腾1800服务器的系统数据库中,便于管理员利用这些信息了解系统状态和进行故障分析。

  核心服务器是系统所有业务逻辑的中枢。它通过与被管服务器的网络连接,提供对服务器硬件传感器和服务器系统的实时监视、报警及控制的后台核心组件处理。核心服务器处理所有来自WEB服务器的逻辑请求,并将处理结果返回WEB服务器。核心服务器包含事件接收服务组件,用于接收来自管理代理的告警事件,并把接收到的事件提交给WEB服务器,经过处理后可在WEB浏览器中显示。当核心服务器启动时,事件接收器就在后台运行。同时,核心服务器也包含数据库连接组件,负责与系统数据库连接进行数据交换。

45nm对比65nm,最新深腾1800服务器评测

  2007年年底,英特尔发布了基于45纳米制程的Xeon 5400系列处理器。联想在2008年1月份即在浙江大学部署了采用该系列处理器的深腾1800服务器。2008年3月份,2套具有20万亿次超强运算能力的联想深腾1800高性能机群服务器成功在中国石油集团东方地球物理公司部署,它们也采用了基于45纳米制程的Xeon 5400系列处理器。这充分体现了联想对于英特尔服务器非常先进的平台技术的消化能力和转换速度。

  我们IT168评测中心非常希望了解应用了最新的Intel服务器平台的深腾1800服务器的表现,于是在联想工程师的帮助下,我们搭建了深腾1800服务器,并且分别配置了上一代Xeon 5300处理器和新一带Xeon 5400处理器进行了测试。为了缩短调试周期,我们仅仅构建了由2台万全R515 1U高度机架式服务器组成的深腾1800服务器,具体配置如下:

深腾1800服务器测试平台配置
被测系统名称 65nm Clovertown 45nm Harpertown
结点数量 2 2
结点型号 Lenovo万全R515 Lenovo万全R515
处理器型号 Xeon E5345 x2 Xeon E5430 x2
处理器主要参数 2.33GHz/8MB L2/1333FSB/四核 2.66GHz/12MB L2/1333FSB/四核
内存 8*2GB FBD667 8*2GB FBD667
硬盘 73GB 10K SAS 73GB 10K SAS
交换设备 QLogic SilverStorm 9024 DDR switch QLogic SilverStorm 9024 DDR switch
HCA卡 Infiniband HCA PCI-E Network Interface Card Infiniband HCA PCI-E Network Interface Card
操作系统 Red Hat Enterprise Linux 4 U4 em64t Red Hat Enterprise Linux 4 U4 em64t
编译器

Intel C/C++ 10.1.015

Intel Fortran 10.1.015

Intel C/C++ 10.1.015

Intel Fortran 10.1.015

MPI环境 QLogic InfiniServ MPI 1.2.5 QLogic InfiniServ MPI 1.2.5
数学库 GotoBLAS 1.26 GotoBLAS 1.26
阵列规模N 61421 61421
分块NB 192 192
进程排列 PxQ:2x8 PxQ:2x8
其它参数 WC00R2R2 WC00R2L4

 

联想深腾1800服务器HPL理论峰值

联想深腾1800服务器HPL实测峰值

联想深腾1800服务器HPL实测效率

  从测试结果来看,采用Intel Xeon 5400处理器的深腾1800服务器比采用上一代处理器的深腾1800服务器性能高出约17.8%,考虑到新平台所采用的处理器的主频比上一代高出了约14%,采用了45nm制程Xeon 5400处理器的深腾1800还是具有一定的性能优势。

  从能耗的方面考虑,Xeon 5430的主频虽然更高缓存更大,但是相比Xeon 5345并没有更高的能耗。这对于大规模的深腾1800机群服务器而言,意味着在能耗不增加的前提下,可以有至少17%的性能提升!

  万亿次,半个机柜即可达成

第一台联想深腾1800服务器
第一台深腾1800服务器是一个“庞然大物”……

  在本系列文章的第一篇《六年“深”发展 把握潮流再“腾”飞》中,我们曾经介绍过第一台深腾1800服务器:“……在今天看来,联想深腾1800高性能服务器是一个“庞然大物”,在20个机柜内包含有263个结点、526个Intel Xeon处理器,其内存总容量为272GB,系统总硬盘空间为6TB,系统域网采用了当时已经崭露头角的Myrinet互联技术。当时专家组鉴定结果为联想深腾1800高性能服务器具有每秒1.027万亿次浮点运算能力,随后2002年11月份公布的世界超级计算机TOP500排行榜中联想深腾1800高性能服务器以1.046万亿次浮点运算能力占据了Top500排行榜第43名的位置……”

新旧深腾1800服务器对比
被测系统名称 第一台深腾1800服务器 最新深腾1800服务器
结点数量 256 12
结点型号 联想万全服务器 Lenovo万全R515服务器
处理器型号 Intel Xeon Xeon E5430 x2
处理器主要参数 2.0GHz/512KB L2/400FSB/单核 2.66GHz/12MB L2/1333FSB/四核
系统内核心数量 512个 96个
内存 8*2GB FBD667 8*2GB FBD667
硬盘 73GB 10K SAS 73GB 10K SAS
交换设备 Myrinet Infiniband
矩阵规模 153600

14800

性能 1027Gflops 803.4Gflops

  我们使用具有12个计算结点的深腾1800服务器运行Linpack得到的结果为803.4Gflops,估算起来只要16个计算结点就能够获得万亿次的计算能力,这些结点只要占据半个机柜的空间。短短的六年内,联想凭借对于最新服务器技术的孜孜以求,快速提升了深腾1800服务器的性能,要获得同样的计算能力,对于空间的需求仅仅是当年的二十分之一,系统的功耗当然也大大降低,随之对于周围供电、散热的需求都进一步降低。我们深切感受到了深腾1800服务器在能耗比方面所获得的巨大进步。

0
相关文章