服务器 频道

戴尔PowerScale存储升级,可用于AI模型培训

  近日,戴尔科技集团全球峰会在拉斯维加斯隆重上演。会上,戴尔正式发布了带有并行文件系统的PowerScale F910系统。

  PowerScale是戴尔在收购EMC Isilon横向扩展文件管理方案之后,为其定下的新名称。截至目前,戴尔共发布了五种全闪存PowerScale型号:F200、F210、F600、F710以及F900。其中F210与F710系统于今年2月份发布,采用PCIe Gen 5总线并配备Sapphire Rapids英特尔CPU。二者均属于直连存储设备的PowerEdge服务器,运行OneFS操作系统,支持将3到252个节点组建为集群。

  本次发布的F910与F900一样,采用2RU机箱并配有24个NVMe驱动器。每个节点最多可容纳1.87PB容量,意味着其采用的是61TB SSD,我们认为是由Solidigm提供的QLC驱动器。戴尔非结构化数据解决方案(UDS)部门高级产品经理Tom Wilson在F910博客中表示,“与之前发布的F710相比,F910每RU的密度提高了20%。”

  F910本质上就是F900,只不过CPU从Cascade Lake升级到了Sapphire Rapids,总线也由PCIe Gen 3升级到了Gen 5。而且与F210和F710的OneFS 9.7版本相比,其9.8版本也更为先进。

  F910可在本地使用,其OneFS v9.8操作系统可在公有云端作为APEX文件存储(亚马逊云科技与Azure)使用。戴尔表示,F910的流媒体性能比F900高出127%,速度可达Azure NetApp文件产品的6倍。戴尔还提到,这也是首款适用于英伟达DGX SuperPOD的以太网存储系统。

  Wilson在博文中写道,“它加速了AI管线的模型检查点与训练阶段,并让GPU利用率保持在高位,每个集群将拥有高达300 PB的存储空间。”他还补充称,“通过提供高达上代产品2倍的每瓦性能,F910可以更好地控制存储成本并优化存储资源利用率。”这里的比较对象应该是运行有OneFS 9.5的F900。

  OneFS 9.8提供RDMA for NFS v4.1,APEX File Storage for Azure以及基于源的IPv6网络路由。PowerScale OS据称可以保护AI数据免遭投毒和模型反演,即攻击者根据目标模型的输出训练自己的机器学习模型,从而根据目标模型的输出来倒推该模型接收到的输入数据。这类似于一种为AI模型建立数字孪生以实现的逆向工程。但戴尔并未公布OneFS抵御模型反演的具体实现方式。

  戴尔ISG营销高级副总裁Varun Chhabra在简报中表示,“我们很高兴地宣布Project Lightning,它将为PowerScale中的非结构化数据提供并行文件系统。Project Lightning将提供极致的性能与优秀的效率,同时实现近线速义弟——网络利用率可达97%,并使得1000个需要大量数据的GPU达到供应饱和。”

  “与传统的全闪存、横向扩展NAS解决方案相比,Lightning将提供20倍性能提升,这也使得PowerScale成为运行更先进AI工作负载的完美平台。”

  戴尔的Project Lightning拥有悠久历史。早在2010年,该项目就涉及基于PCIe/闪存的服务器缓存技术。通过长期发展演进,PowerScale集群节点如今已可并行执行I/O。但戴尔并未透露F910软件将如何更改以添加并行文件系统访问的细节消息,OneFS 9.8版本的发行说明同样没有提及并行访问。

  我们不知道并行文件系统支持是否会扩展到其他全闪存PowerScale产品。明显也有其他人向戴尔提出了类似的问题。

  Chhabra还补充了一些关于网络部分的要点:“随着GPU变得越来越大,其对网络资源的要求也越来越高。因此网络必须既能够承载GPU之间的数据流、又能继续传递好从服务器到存储间的数据流。网络规模日益庞大,因此我们与博通合作发布了一系列非常重要的公告,以帮助客户使用自己的AI网络结构,确保能够从基础设施中获取最优性能。我们提供基于以太网的网卡、交换机与网络架构的全面产品组合,而且在各个层面上都在不断进步。而一马当先的就是基于博通Tomahawk 5的全新PowerSwitch,将可支持400 G与500 G交换能力。”

  Wilson指出,“我们将在今年下半年推出更进一步的增强功能。”具体包括:

  61 TB QLC驱动器,将使得存储容量与数据中心密度加倍,以容纳训练复杂AI模型所需要的大规模数据集。

  包含200 GbE以太网选项及HDR 200G InfiniBand选项,可实现更强大的连接性、更快的数据访问速度以及更无缝的集群扩展效果;适用于英伟达Spectrum-4与Quantum QM8790交换机。

  PowerScale F910将于2024年5月21日起在全球范围内上市。

  戴尔公司一位发言人告诉我们,“新的并行文件系统将在晚些时候推出,我们目前不会透露具体时间。”

  PowerScale的市场定位

  戴尔这套并行文件系统在IO方面的突破,使得PowerScale成为Lustre、IBM Spectrum Scale、VAST Data、WEKA以及其他并行访问文件系统存储厂商的直接对手。再考虑到所有最快的英伟达GPUDirect认证文件系统在本质上都为并行、而非按序设计,因此PowerScale也相当于是向AI模型训练领域迈出了坚实的一步。

  2月2日,迈克尔·戴尔曾发推文表示:“如果存储系统无法以足够快的速度向英伟达交付数据,那么英伟达GPU往往会陷入闲置。也正因为如此,我们才打造出了世界上最快的AI存储方案PowerScale。”但这条评论与GPUDirect厂商的统计数据不符,从统计结果来看,与DDN、华为、IBM、NetApp以及BeeGFS、VAST和WEKA的并行系统相比,当时还在采用按序IO设计的PowerScale明显处于落后地位。

  但现如今情况早已不同,我们也期待看到更新之后的PowerScale GPUDirect性能数据。

  通过采用并行访问,PowerScale现在与NetApp也拉开了差异。NetApp的ONTAP文件系统产品为横向扩展设计,本质上并非并行;出于同样的理由,PowerScale与Qumulo也终于区分开来。

  参考链接:https://blocksandfiles.com/2024/05/20/dell-parallel-powerscale-sai-model-training/

2
相关文章