【IT168 专稿】Dell的GPU解决方案具有非常大的灵活性,并将主机节点的选择权交给了用户。本文展示Dell PowerEdge™ C410x PCIe扩展机架(expansion chassis)以及与之相关的三大主要的主机节点:Dell PowerEdge C6100,Dell PowerEdge C6105以及Dell PowerEdge C6145。图1是Dell PowerEdge C410x PCIe扩展机架的示意图。
▲图1. Dell PowerEdge C410x PCIe扩展机架
Dell PowerEdge C410x PCIe扩展机架高度为3U,能够容纳16块PCIe G2 热交换卡(hot-swap cards),称之为“sleds”。每块热交换卡包含一个PCIe G2 x16接口,通过将它连接到机架上的PCIe x16主机接口连结器。Dell PowerEdge C410x主机接口连结器包括8块主机接口卡(Host Interface Card,HIC),最多能够连接8台外部主机。或者你也可以使用每8块热交换卡连接到一块主机接口卡上,这样每台外部主机就能够访问8块热交换卡了,但是这时最多只能连接2台外部主机(在“Dell PowerEdge C410x连接外部主机节点”一节我们会详细介绍GPU、HIC、主机节点之间的连接关系)。
Dell PowerEdge C410x机架包括4个1400W的热插拔电源模块并能够提供N+1的冗余。该机架的功率消耗为3600W(共16块热交换卡,每块225W)。另外该机架具有一块板载的基板管理控制器(Baseboard Management Controller,BMC),与智能平台管理接口(Intelligent Platform Management Interface,IPMI)2.0兼容,另外还包括一个专用的管理端口。
该机架没有CPU插槽,只有PCIe插槽。你可以认为该机架专门是为GPU而量身打造的。目前它支持NVIDIA Tesla™ M2050,M2070以及M2070Q GPU。Dell同时也在对新型号的GPU进行验证,包括NVIDIA Tesla M2075和M2090以及某些型号的AMD GPU。举例来说,该机架同样支持Mellanox® InfiniBand®主机通道适配器(host channel adapters,HCA)。将来也可能支持很多其他种类的插卡,包括光纤通道卡以及其他PCIe设备。Dell PowerEdge C410x机架所支持插卡的通用原则就是该插卡必须能够被冷却,以便不改变机架内部的气流,使相关的设备能够被有效的冷却。这些插卡被安装在热交换卡中然后被插入机架内的PCIe G2 x16插槽中(见下图2)。
▲图2. Dell PowerEdge C410x热交换卡结构图
正如图3和图4所示,Dell PowerEdge C410x前面板包括10块热交换卡,后面板包括6块热交换卡。
▲图3. 包含10块热交换卡的Dell PowerEdge C410x前视图
▲图4. 包含6块热交换卡的Dell PowerEdge C410x后视图
图4显示了机架后视图左侧的4个电源模块。在电源模块下方是包含8个主机接口卡(Host Interface Card,HIC)PCIe x16连结器,用于连接外部的主机节点与包含GPU的内部热交换卡。
最近,Dell为C410x开发了“公共载体”(common carrier),一个通用的PCIe载体。目的是进行通用的封装,这样定制的热交换卡不需要专为某个PCIe插卡而设计。图5展示了公共载体的结构图。
▲图5 Dell PowerEdge C410x通用PCIe载体
通用的PCIe载体支持标准的半宽、全高热交换卡,而且该热交换卡允许使用外部连线,能够连接外部以太网络或者视频等及其他网络。目前,该热交换卡已经通过Mellanox InfiniBand板卡的认证测试;随后Dell将测试并认证更多其他种类的卡。建议在使用任一PCIe插卡前先与Dell进行联系,确保所有的插卡能够被有效的冷却。
推荐阅读:高性能计算专区
Dell PowerEdge C410x连接外部主机节点
与使用NVIDIA Tesla S1070 或S2050相同,Dell PowerEdge C410x需要通过主机节点内部的主机接口卡(Host Interface Card,HIC)连接外部主机节点。你可以通过PCIe连接线连接主机节点与Dell PowerEdge C410x的主机接口卡。重启主机节点后便会自动识别到Dell PowerEdge C410x内部的插卡,与主机节点的本地设备没有太多区别。
Dell PowerEdge C410x内部的GPU可以通过多种方式连接主机接口卡。第一种方式是为Dell PowerEdge C410x机架配置8颗GPU,对应于Dell PowerEdge C410x机架背板上的8个HIC接口。这样背板上的每个HIC接口就能够连接到外部主机节点上的HIC接口。这种方式的对应模式是一对一,也就是一颗GPU对应一个PCIe x16插槽。
第二种方式是为Dell PowerEdge C410x机架配置16颗GPU,这样背板上的每个HIC接口所连接的每个外部主机节点能够识别到2颗GPU。这种选择的对应模式是二对一,也就是两颗GPU对应一个PCIe x16插槽。
以上两种解决方案很容易配置—你只需为Dell PowerEdge C410x机架配置包含GPU的热交换卡并将机架背板上的HIC接口与对应的外部主机节点的HIC接口相连即可。你可以使用IPMI 2.0 BMC Web接口登录到机架上检查GPU是否映射到对应的HIC接口。同时使用IPMI 2.0 BMC Web接口还能够进行更多的配置。你可以最多指定8颗GPU对应于一个特定的HIC接口,也就是说你可以将8颗GPU指定给连接了该HIC接口的主机节点。每个HIC接口能够连接5到8颗GPU是Dell PowerEdge C410x一个新特性,需要对其内嵌的管理软件进行升级。旧版本的管理软件每个HIC接口最多只能连接4颗GPU。
GPU配置的常见问题都与GPU和主机之间的带宽相关。理解该问题的最好方法是取极限值(也就是确定最高带宽与最低带宽)。Dell PowerEdge C410x机架内的每颗GPU物理连接到一个PCIe x16插槽上。这意味着即使每个HIC端口连接2颗或者更多的GPU,每颗GPU能够达到的最大吞吐量也就是PCIe x16插槽的吞吐量,这时没有其他的GPU在同时进行通信。当所有的GPU在同时进行大量的数据通信时,性能将降到最低。假设每个HIC端口连接了8颗GPU,那么每颗GPU只能获得PCIe x16插槽八分之一的带宽。如果每个HIC端口连接4颗GPU的话,每颗GPU将获得PCIe x16插槽四分之一的带宽。
很少看到使用多颗GPU的应用程序同时与大量的数据进行通信的情景,因此应用程序实际的性能通常处于最高性能与最低性能之间。
为主机节点配置GPU可以通过简单的命令脚本实现,该配置工作可以很容易地作为作业调度的一部分进行。然而,以这种方式对系统进行配置需要注意以下两点:
1.确保即将分配给主机节点的GPU没有被其他主机节点使用。否则原来在使用该GPU的主机节点将认为硬件出现了故障。
2.更改GPU数目时,你需要重启节点。因为GPU是主机节点新的PCIe设备,只用重启该节点GPU才会被作为新硬件识别到。
能够给主机节点动态分配GPU允许你在应用程序开发过程中满足不同数量级的应用程序及用户对GPU的需求。假设你有一个非常成熟、稳定的应用程序被一些用户使用,每个PCIe x16接口可能使用4到8颗GPU。但是也存在每个用户只需要在每个PCIe x16接口上使用1颗GPU的情况。使用Dell PowerEdge C410x,编写一些简单的脚本就能够满足用户对每台物理主机使用GPU数目以及相关资源的要求,重启节点后就可以使用相应的GPU及相关的资源了。
Dell PowerEdge C410x为应用程序及相关的开发工具带来了非常多的灵活性。其他相关的解决方案,GPU都集成在计算节点内部,也允许你增加GPU数目,在一定程度上能够满足对GPU计算的要求,但受限于计算节点所提供的GPU,其灵活性不足,难以满足应用程序及开发工具对GPU计算的多样化需求。
选择主机节点
Dell PowerEdge C410x能够连接多种主机节点以满足多种GPU应用程序场景。以下是C410x能够连接的三大主机节点:Dell PowerEdge C6100、Dell PowerEdge C6105、Dell PowerEdge C6145。
图6是Dell PowerEdge C6100的示意图,机架高度为2U,包括了4个独立的基于双插槽Intel 至强5600系列处理器的系统。该机架配置了双冗余电源为四个系统板供电,配置了两个热插拔驱动器:最多能够支持24块2.5英寸硬盘或12块3.5英寸硬盘。硬盘驱动器能够在四个系统之间平均分配。
▲图6. Dell PowerEdge C6100后视图
每个系统都基于双插槽的Intel至强5600系列处理器,具有12个内存插槽,2个千兆以太网端口,一个兼容于IPMI2.0的BMC,一个用于RAID控制器或网卡的PCI x8插槽以及一个PCIe G2 x16插槽。其中,PCI x8插槽能够使用10Gb以太网卡或InfiniBand网卡,而PCIe x16插槽用来安装HIC卡连接C410x机架。C6100的每块系统板能够连接Dell PowerEdge C410x的1颗到8颗GPU。
Dell PowerEdge C6105与Dell PowerEdge C6100相似,只不过系统板使用的是AMD Opteron 4100系列处理器。图7展示了最近发布的Dell PowerEdge C6145。
▲图7. Dell PowerEdge C6145后视图
Dell PowerEdge C6145与Dell PowerEdge C6100和Dell PowerEdge C6105的机架结构基本相同,包含了两个使用AMD Opteron 6100系列处理器的四插槽系统。每个系统包含32个内存插槽,2个1Gb以太网口,一块PCIe G2 x8夹层卡,3个PCIe G2 x16插槽,以及一个PCIe x16 HIC接口。图8是C6145的后视图。
▲图8 Dell PowerEdge C6145详细的后视图
两个冗余的电源模块位于左侧,右侧是两块系统板。每块系统板的底部是一排外部连结器:以太网口在左侧,BMC端口靠右侧,视频端口以及串口在中间,USB端口在BMC端口右侧。PCIe x8夹层卡位于上下两个x16 HIC端口之间,能够插入10Gb以太网卡或InfiniBand网卡。
Dell PowerEdge C6145与Dell PowerEdge C6100和Dell PowerEdge C6105的驱动器配置相同,前面板最多配置24块2.5英寸硬盘或12块3.5英寸硬盘。所有的硬盘驱动器在两个系统板之间平均分配。
使用C410x以及三大主机节点,能够创建众多不同的GPU配置,能够根据用户的实际需求灵活地将GPU分配给主机节点。在下一篇文章中我们将选择一些GPU配置进行重点介绍。