服务器 频道

IBM eServer p5 575

要  点

   功能强大的模块,专门针对要求极高的HPC和BI应用程序而设计
   强大的IBM POWER5处理器和超大内存带宽相结合
   创新的安装形式使占用的空间最小化,降低了环境要求并简化了系统管理

    时间就是金钱这句格言阐述了当今高负荷、快节奏的经济活动。从事医药研究、石油钻探建模、天气预测、金融模拟和商业智能(BI)的公司知道浪费时间很可能会导致错失商机和失去竞争优势。所以,公司、研究实验室和学术机构需要一流、高性能的系统,从而能在控制成本的同时加速研发、缩短上市时间和更快地利用企业的数据。

    IBM* p5 575 集群节点专门为那些进行极高负荷计算的应用程序而设计,它们往往需要很高的计算性能和内存带宽。通过IBM* p5 575,能够实现从16到2000个CPU的不同规模计算集群。

    p5-575 节点提供两种不同的配置选择。8路节点包含 8 颗 1.9 GHz 的 IBM POWER5 微处理器,每个处理器具有独享的 1.9MB 的二级和 36MB 的三级高速缓存,以充分发挥高带宽计算的能力。16路节点包含16颗1.5GHz的IBM POWER5微处理器,以提供极高的CPU密度,在此配置下,二级和三级高速缓存被该芯片上的两颗处理器所共享。16路节点的每处理器带宽比8路节点要小,但通过增加处理器数量,能够为HPC应用提供更高的浮点运算能力。

    p5-575 集群节点提供了不可思议的计算密度。没有一种基于 POWER5 处理器的系统能够实现在单一系统机架中由近200颗处理器(12 个16路p5-575 集群节点)所获得的非同一般的密度。与前代产品 IBM pSeries* 655 相比,p5-575 提供更高计算密度和持续的高性能。

    p575广泛适用于各种的计算密集型和需要高内存带宽的应用类型。

    8路节点p5-575设计旨在满足大量不但需要快速处理,而且需要快速且持续地访问大量数据的组织的需求。 在8路节点中每处理器有着超过12GBps的峰值内存带宽,非常适用于HPC 应用,如计算机辅助工程(CAE)、海洋科学研究、气象学、流体力学计算、能源研究、数据挖掘和其他传输、访问和快速分析大量数据的带宽密集型工作。

    通过增加处理器,16路节点的浮点性能比8 路节点高出至少50%。它以极高的性价比在单一机架内实现了高达1TeraFlops的性能。并且,16路节点与8路节点有着同样的内存容量和带宽,是一个非常适用于浮点密集型和科学计算相关应用(如CAE)的16 路计算节点。

    像p655 一样,p5-575 旨在很好地满足众多公司(如保险、银行、金融和零售企业)的需求,这些公司通常都拥有大量的信息并想对这些数据进行挖掘以获得竞争优势。p5-575 拥有大量的功能,使其非常适合于大多数对资源要求极为苛刻的工程和科学任务,也使得适合于那些将 IBM DB2* Universal Database*  软件用于 BI 的大规模数据仓储和数据服务应用程序。您可以配置该节点,以便在向外扩展集群时只需复制它。

    p5-575采用具有极高性能的64位POWER5处理器,这些处理器支持并发多线程技术,使得可以同时执行两个应用程序的线程,因而比起早期基于IBM POWER* 处理器的系统,POWER5能提供更出色的性能。

    p5-575的高性能还得益于其大容量的二级和三级高速缓存。这些高速缓存能保证应用程序更为高效的访问到所需信息,从而使得p5-575集群节点运行工作负载的速度比先前的产品快得多。

    为了使系统性能更加出色,p5-575的内存DIMM通过8个点到点的连接与各个处理器Chip相连,从而每个节点的峰值内存带宽高达近100GBps,每个节点支持的最大内存容量为256GB。DIMM与其所属的处理器芯片接合紧密,以满足降低信号传播延迟并减少耗电量和散热量的要求。

    与在 HPC 集群中采用较小型对称多处理(SMP)节点相比,8 路和16 路p5-575 节点允许工作负载在速度更快、延迟更低、带宽更高的SMP架构上进行通信,而不需要在I/O的交换结构进行。这种系统配置能在降低复杂性、提高可管理性和帮助控制成本的同时,提供更为出色的整体系统性能。

    p5-575集群节点支持由IBM“虚拟化引擎”系统技术和操作系统实现的逻辑分区(LPAR)。该处理器可以运行独立的工作负载,因此可降低成本。p5-575 分区被设计成相互隔离,因此可以提高数据安全性级别和应用程序的可用性。

    p5-575节点还提供可选的高级的POWER虚拟化技术,包括微分区技术和虚拟I/O服务器功能(VIOS),使企业在确保应用程序持续得到所需的资源的同时,提高资源利用率。利用虚拟化技术,可以在同一台服务器或处理器上运行多个操作系统副本,有助于减少需要的集群节点数目和减少软件许可成本。微分区技术允许处理器进行微调以整合多个独立的AIX 5L 和Linux 工作负载。

    The p5-575 集群节点具有创新、精巧的设计和安装。由于采用简洁的2U机柜,模块化的p5-575允许用户在一个42U 的系统机架中安装12 个节点。8 路和16 路的p5-575 节点可以在相同的机架中混合。这种独特的封装有4 个组成模块;I/O 子系统、DC 电源变流器/盒、处理器和内存以及冷却系统。每个组件都可以定制,以满足高性能、高密度的计算的苛刻要求。

    节点可被配置为“计算”或“I/O”节点。标准的“计算”节点配置包括2个双通道10/100/1000 Mbps以太网端口;2个集成的Ultra3 SCSI 控制器、2个用于系统控制的硬件管理控制台(HMC)端口、1 个独立服务处理器、逻辑分区功能和2个热交换磁盘存储器支架( 它支持10000 转/分或15000 转/分的磁盘驱动器)。一个“I/O”节点增加了4 个133 MHz 热插拔、可热交换的PCI-X 适配器插槽,以便管理员直接在节点中修理、替换或安装适配器,它还有一个RIO-2 集线器端口,以便连接可选的I/O 扩展抽屉。

    高效的“DC 电源分配模块”被集成到该节点的箱盖上。这种创新的电源系统依赖于所嵌入的电路,而不是外部布线,从而能提供更可靠、更有效的电源分配。用铰链方式安装的箱盖可以方便地打开,从而能便捷地拆装包含POWER5处理器和系统内存DIMM的“处理器和内存模块”。“电源模块”包括了精确智能监控功能,旨在帮助确保电源始终以最优状态传送,在发生错误的情况下,它会向节点服务处理器提供警告数据。

    “处理器和内存模块”是系统的核心。它们包含8 个或16 个部署在八个单核心或双核心模块上的POWER5 处理器。每个模块还有二级和三级高速缓存,以及与多达8 个内存DIMM进行点到点的连接。这种实现方式可以提供极高的内存带宽以支持大量要求极高的HPC 应用程序。

    前端冷却模块具有两个进气栅格,它有两个定制的风扇,采用高性能叶轮和高效马达,可以延长寿命和方便维护。和电源模块一样,风扇系统采用智能技术,可以不断监视和调整转速来弥补室内温度和其他系统运行条件的变化。

    可以在机柜内增减p5-575集群节点,或在集群内进行复制,以满足不断增长的工作负载需求。每个p5-575集群节点的最低配置为1GB内存,可扩展到256 GB。2个热交换的磁盘驱动器允许将磁盘存储容量从73.4GB 扩展到600GB。如果要求更大的磁盘容量,“I/O”节点选项通过机柜后面的RIO-2集线器端口仍能支持4U 的I/O 扩展抽屉。I/O 扩展抽屉最多可容纳16 个附加的磁盘支架,从而可提供2.3TB 的15K rpm磁盘存储量。两个集群节点可以共享一个I/O 扩展抽屉,每个系统机架包含5 个I/O 扩展抽屉。

    随着工作负载需求的增加,p5-575集群可以方便且经济有效地进行向外扩展。每个系统机架可容纳多达12 个8 路或16 路的p5-575集群节点。企业可以添加系统机架以构建具有2 到128 个节点的系统集群(16到2048个处理器)。

    p5-575节点在一个集群内如何联接取决于使用的集群管理软件。4 Linux环境下的集群系统管理(CSM)支持以太网(10/100/1000 Mbps)或4x InfiniBand相互联接,对于AIX 5L 环境下的CSM,可使用以太网4x InfiniBand或IBM System pSeries High Performance Switch(HPS)相互连接来支持HPC工作负载。

    HPS 基于久经考验IBM RS/6000 SP Switch2体系结构和技术,使Cluster 1600环境中的集群节点或它们的LPAR 有更高的通信带宽和更低的延迟。HPS 是可安装在24 英寸机架中的4U 机架扩展笼,它提供具有并行、互连通道的交换网络并能获得支持交换机互联的铜缆接口。冗余电源转换器和电缆线可提高可靠性、可用性和可维护性(RAS)。

    虽然p5-575 集群节点结构紧凑,但是它具有秉承大型机技术的功能,从而可以提供较高的RAS。p5-575 具有内置的服务处理器,旨在持续地监控系统的运行,并能采取预防或纠正措施以快速解决问题。首次故障数据捕获(FFDC)功能有助于在系统故障发生之前确定和记录问题。IBM 错误检查与更正(ECC)/Chipkill 内存技术能发现并纠正内存错误,以防止代价高昂的系统崩溃。“动态处理器再分配”功能在许多情况中能够确定潜在的处理器问题、生成错误报告并可以在处理器发生故障之前释放处理器。

    p5-575 节点电源分配和转换系统(采用eServer p5 595 服务器的设计)依赖于内嵌的电路,而不是外部布线,它们能在系统组件之间分配电力,其目标是更为可靠且更为有效地进行电源分配。当一个冷却风扇出现故障时,另一个风扇会提高它的转速,而系统服务处理器会发出服务呼叫。整个电源和冷却系统的大量监控功能确保时刻提供非常好的节点性能,并可在超出指定条件或组件失败时,使服务处理器发出服务呼叫。

    The p5-575 系统在机架加入了结构化组件,即时在电源设备出问题时,仍能提供出众的可用性。p5-575 系统使用IBM 先进的机架分布式电源转换体系结构,从而可以增加系统密度、简化电源连接电路并提供功能强大的、冗余的系统供电方案。两个简单、完全通用的电缆将p5-575 系统机架连接到客户在世界任何地方的供电设施,而无须因电源设备的电压和频率不同而进行调整。它支持200v 到240v、380v 到415v,以及480v 三相电源输出,这使客户无需购置额外的设备,从而节约成本,并能提高电源的利用率。与大多数其他计算设备相比,p5-575 对电压波动的适应能力更强,并且可选的后备电池能帮助系统在瞬时电力中断的情况下仍能维持正常运行,而无需体积庞大且昂贵的不间断电源(UPS)系统。

    每个p5-575 系统机架中都包含双冗余机架控制器和以太网集线器,用于通过连接到HMC 独立双通道以太网服务网络提供对每个扩展笼的硬件监控和控制连通性。这一高可用性方案将所有节点、I/O扩展笼和HPS 客户端系统界面集中到机架外的单一控制台上,使用户可以在更安静,更舒适的环境中工作。

    p5-575 集群节点中内置了IBM 自主计算增强功能。自我保护功能有助于p5-575 在发生错误时确定引起错误的原因,并可以减少在发生错误后重现错误所需的服务时间。在自我修正错误或在脱机状态下更换资源时,系统仍能继续运行。IBM 的FFDC 提供实时的错误信息,并能够确定进行问题修正的所需部分。服务处理器能确定哪一部分或哪一组件需要修复,并能发出服务呼叫,以确定在客户可接受的时段确定需要维护的部分。

    如果检测到故障,自我修复功能能帮助p5-575 修正错误情况并继续运行。该功能通过二级和三级高速缓存以及内存中的“错误检查与更正(ECC)”,以及内存中进行位分布、位操作以及内存清除等软错误恢复过程实现的。位分布将位分布到四种不同的内存字上,它支持一位错误恢复并在Chipkill 内存检测到故障时,确保p5-575 持续运行。如果内存的位故障率超出给定的阈值,位操作会动态地将一位传送到空闲的内存芯片上。如果空闲芯片上的所有位已用完,则调用服务处理器,以请在客户可接受的某个时间进行维护。单位软错误的内存清除是在后台执行的,以便在内存空闲时修正错误。这有助于防止发生多位错误。

支持业务关键型应用程序

    p5-575 集群节点可以在同一节点上同时运行AIX 5L 和Linux 操作系统(OS),从而可以灵活地支持各种应用程序,包括业务关键型应用程序。

    AIX 5L是稳定的UNIX 环境,它针对应用程序性能进行了优化,并具有优异的RAS 功能。AIX 5L OS对Java技术、Web 性能和管理各种规模集群的可伸缩性进行了强化。基于Web 的远程管理工具使管理员能集中式控制系统,从而使他们能监控关键的资源,包括适配器和网络可用性、文件系统状态和处理器工作负载。

    AIX 5L还包含“工作负载管理器”和能使应用程序保持高响应性,即便在系统需求的高峰期间也是如此的资源管理工具。

    p5-575 集群节点支持Linux 操作系统,允许选择适合客户需要的操作系统。因为Linux 是开放源码的技术,因此它使得全球Linux 社区在增强、分享和有效利用Linux ,并且获得该操作系统的许可证方面比获得大多数专有操作系统要便宜。选择Linux,用户并不必为了

    p5-575功能的功能性、可靠性和可扩展性妥协。Linux 使企业可以自由地选择能满足它们需求的适当的应用程序,其中包含了各种开放源码和IBM 与第三方应用程序。Linux OS由IBM和指定的Linux 分销商以打包形式提供,包中包括一系列的开放源码工具和应用程序。

    Cluster 1600,是适用于UNIX 或Linux环境的高可伸缩性集群解决方案,由System p5 和pSeries 节点集群(最多可包括128 p5-575 集群节点) 组成。它支持AIX 5L、SUSE LINUX
Enterprise Server( SLES) 和Red Hat Enterprise LinuxAS 3 (RHEL AS 3) 操作系统。Cluster 1600 通过AIX 5L 或Linux 集群的CSM 实现。CSM 支持其他可选HPC 集群软件:

  •  Parallel Environment ( PE) for AIX 5L -针对在AIX 5L 下的并行消息传递应用程序的功能强大的开发和执行环境。
  •  LoadLeveler -动态作业调度和工作负载均衡软件,它支持集群中成千上万的作业。AIX 5L、SLES 和Red Hat AS 支持LoadLeveler。
  • GPFS -高性能的共享磁盘文件系统,它提供对集群所有节点中数据的快速访问。GPFS 在AIX 5L、SLES 和Red Hat AS 上受到支持。
  • ESSL 和Parallel ESSL -在AIX 5L 和Linux 上用来增强串行、并行和科学应用程序性能的数学库。AIX 5L、SLES 和RHELl AS 支持ESSL 和Parallel ESSL。
  • High Availability Cluster Multiprocessing ( HACMP) for AIX 5L -如果数据库或应用程序服务器出现故障,则它可通过数据库或应用程序的故障转移功能,启用辅助服务器来提供对数据和应用程序的持续访问。
  • 运行在TopSpin MPI (MVAPICH) 上的Linux HPC工作负载支持4x InfiniBand PCI 适配器,也支持商业工作负载的IPoIB。此外, 还支持针对p5-575 HPC Linux 集群的Myricom 的Myrinet互连使。

    POWER Hypervisor 与操作系统的结合,大大提高了生产力。用户可以运行AIX 5L或SLES操作系统,动态的建立LPAR。动态LPAR 支持系统管理员重新分配系统资源,而无需重新启动系统或分区。

    如果AIX 5L V5.3, SLES 9 或RHEL AS 3 被选择在分区上运行,则用户可以利用硬件的并发多线程功能,与单线程的运算相比,1 这最多可以使处理器的吞吐量提高达30%(基于rPerf 2),所提高的量取决于正在分区上运行的应用程序本身。此外, 用户可以使用高级POWER 虚拟化功能获得更高的灵活性,这些功能有微分区、共享处理器池和虚拟I/O 服务器功能。

    “ 微分区” 技术够在一个1.5 GHz p5-575 集群节点上建立多达160 个微分区(或在1.9 GHz 集群节点上创建80 个),能将每个处理器的能力最多分给10 个微分区使用。共享处理器池可以提供处理能力,以便分派到该处理器池的分区共享,这样可以提高利用率和吞吐量。VIOS 支持磁盘驱动器、通信和光纤通道适配器的物理共享,它可以减少昂贵设备的数量,并能改善系统的管理和提高利用率。POWER Hypervisor 也支持Virtual LAN 在分区之间进行高速安全的通信,以帮助提高性能。

    AIX 5L 支持高级POWER 虚拟化另一种功能:“分区负载管理器”,该功能提供基于策略、自动的分区资源优化能力,从而可以调整分区之间的CPU 和内存的分配。

    IBM eServer p5 575 集群节点旨在成为一种用于超级计算机的模块。每个节点都有可能成为针对特定需求的非常好的节点:具有高内存带宽的8路节点对于快速处理大量数据十分重要,而具有极高性价比的16 路节点可在紧凑空间中提供计算能力,这对于客户满意度至关重要。p5-575 集群节点创新、紧凑的结构,可选的虚拟化引擎(具有微分区功能)以及同时运行AIX 5L 和Linux 操作系统的能力,使其能用更少的物理空间完成更多的工作。各种为AIX 5L 和Linux 操作系统设计的管理工具提供了安装和有效管理大型集群的方法。p5-575集群能够很方便地进行伸缩,所以它可以根据组织的高性能需求进行扩展。
0
相关文章