【IT168 专稿】Dell的GPU解决方案具有非常大的灵活性,并将主机节点的选择权交给了用户。本文展示Dell PowerEdge™ C410x PCIe扩展机架(expansion chassis)以及与之相关的三大主要的主机节点:Dell PowerEdge C6100,Dell PowerEdge C6105以及Dell PowerEdge C6145。图1是Dell PowerEdge C410x PCIe扩展机架的示意图。
▲图1. Dell PowerEdge C410x PCIe扩展机架
Dell PowerEdge C410x PCIe扩展机架高度为3U,能够容纳16块PCIe G2 热交换卡(hot-swap cards),称之为“sleds”。每块热交换卡包含一个PCIe G2 x16接口,通过将它连接到机架上的PCIe x16主机接口连结器。Dell PowerEdge C410x主机接口连结器包括8块主机接口卡(Host Interface Card,HIC),最多能够连接8台外部主机。或者你也可以使用每8块热交换卡连接到一块主机接口卡上,这样每台外部主机就能够访问8块热交换卡了,但是这时最多只能连接2台外部主机(在“Dell PowerEdge C410x连接外部主机节点”一节我们会详细介绍GPU、HIC、主机节点之间的连接关系)。
Dell PowerEdge C410x机架包括4个1400W的热插拔电源模块并能够提供N+1的冗余。该机架的功率消耗为3600W(共16块热交换卡,每块225W)。另外该机架具有一块板载的基板管理控制器(Baseboard Management Controller,BMC),与智能平台管理接口(Intelligent Platform Management Interface,IPMI)2.0兼容,另外还包括一个专用的管理端口。
该机架没有CPU插槽,只有PCIe插槽。你可以认为该机架专门是为GPU而量身打造的。目前它支持NVIDIA Tesla™ M2050,M2070以及M2070Q GPU。Dell同时也在对新型号的GPU进行验证,包括NVIDIA Tesla M2075和M2090以及某些型号的AMD GPU。举例来说,该机架同样支持Mellanox® InfiniBand®主机通道适配器(host channel adapters,HCA)。将来也可能支持很多其他种类的插卡,包括光纤通道卡以及其他PCIe设备。Dell PowerEdge C410x机架所支持插卡的通用原则就是该插卡必须能够被冷却,以便不改变机架内部的气流,使相关的设备能够被有效的冷却。这些插卡被安装在热交换卡中然后被插入机架内的PCIe G2 x16插槽中(见下图2)。
▲图2. Dell PowerEdge C410x热交换卡结构图
正如图3和图4所示,Dell PowerEdge C410x前面板包括10块热交换卡,后面板包括6块热交换卡。
▲图3. 包含10块热交换卡的Dell PowerEdge C410x前视图
▲图4. 包含6块热交换卡的Dell PowerEdge C410x后视图
图4显示了机架后视图左侧的4个电源模块。在电源模块下方是包含8个主机接口卡(Host Interface Card,HIC)PCIe x16连结器,用于连接外部的主机节点与包含GPU的内部热交换卡。
最近,Dell为C410x开发了“公共载体”(common carrier),一个通用的PCIe载体。目的是进行通用的封装,这样定制的热交换卡不需要专为某个PCIe插卡而设计。图5展示了公共载体的结构图。
▲图5 Dell PowerEdge C410x通用PCIe载体
通用的PCIe载体支持标准的半宽、全高热交换卡,而且该热交换卡允许使用外部连线,能够连接外部以太网络或者视频等及其他网络。目前,该热交换卡已经通过Mellanox InfiniBand板卡的认证测试;随后Dell将测试并认证更多其他种类的卡。建议在使用任一PCIe插卡前先与Dell进行联系,确保所有的插卡能够被有效的冷却。
推荐阅读:高性能计算专区