服务器 频道

HPC存储非常好的实践系列之:快速暂存方案

HPC存储模板
进入高性能计算专区

  【IT168专稿】有些应用程序需要一个既能提供高性能、高容量、高效率又能很容易部署、整合及管理的文件系统解决方案,这时候非常好的选择就是Dell&Terascala HPC 存储解决方案(DT-HSS)。

  Lustre的典型部署和配置既复杂又很耗时间。部署Lustre通过命令行界面来安装和管理,这可能阻碍不熟悉软件的系统管理员部署Lustre。另外为使Lustre安装达到最好的性能需要考虑众多的选项,该过程并不简单。Dell&Terascala HPC存储方案不仅避免了上述复杂性,而且在最大程度上减少了部署和配置时间,这样我们就可以尽快测试文件系统并为生产环境做好准备。

  DT-HSS实现了基于并行文件系统的存储应用方案的所有优势,在成本上也更加划算,虽然DT-HSS基于Lustre,但使用、安装、配置及管理与Lustre相比都更加简单。DT-HSS存储方案可以较轻松地被整合为一个集群并提供良好的单用户和全系统性能;而且与安装、管理Lustre需要经验丰富的工程师不同,即使是没有太多经验的系统管理员也可以安装并管理DT-HSS。研究表明,Dell&Terascala HSS可以同时为N对N(N-to-N)及N对1(N-to-1)文件访问模型提供非常大的吞吐量和IOPS。

  Dell&Terascala HPC 存储方案有其独到之处,单一操作界面简化了对整个存储系统进行端到端的操作与监控,单个全局命名空间允许你管理从少量到数百TB的数据。Dell&Terascala HPC 存储方案是完全捆绑的并经过了预先配置及测试。现场安装、配置和客户培训将为部署时间最小化提供帮助。

  Dell&Terascala HPC 存储方案提供的构件化(building block)设计使配置和扩展成为可能。每一个存储构件模块都可以提供高达192TB的裸容量,2.4GB/s的吞吐量。构件化方法意味着你可以轻松地设计出满足容量和性能要求的存储配置。在单个命名空间里Dell&Terascala HPC 存储方案的裸容量最小为48TB,最大可达数PB。

  主/主对象和主/被元数据服务器提供了最高的可用性和最出色的性能。DellPowerVault MD32x0存储阵列提供的主/主RAID控制器、热交换磁盘驱动器、冗余电源及风扇增强了存储的可用性和有效性。

  图7显示了48TB DT-HSS的一个简单配置。关键的硬件系统包括MDS、OSS和TMS1000管理设备,其中MDS和OSS节点通过QDR InfiniBand 连接到计算节点。

  MDS由两台Terascala存储服务器组成,这两台Terascala存储服务器采用主/被配置连接到Dell PowerVault MD3220存储阵列。PowerVault MD3220存储阵列的24块2.5英寸500GB Nearline SAS驱动器组成了RAID 10,提供了6TB的可用空间用于存储文件元数据信息。主/被配置克服了Lustre部署中常见的高可靠性缺陷,为元数据提供了高可用性和可靠性。该配置使用了高级监控及操作特性,在MDS发生故障时保证了快速、完整的故障切换,避免了元数据丢失。

  OSS由两台Terascala存储服务器以及采用主/主高可用配置进行交叉连接的两台Dell PowerVault MD3220存储阵列组成。主/主配置允许这两台服务器通过冗余路径访问存储阵列。通过DellMD3200阵列连接PowerVault MD1200阵列可以扩展存储容量。每一个对象存储节点至少可提供48TB的裸容量,最多可扩展至192TB。

HPC存储非常好的实践系列之:快速暂存方案
▲图1. Dell&Terascala HPC 存储方案 (HSS)

  Dell&Terascala HPC存储方案采用构件化设计,使用构件化模块可以很容易地设计出满足容量和性能需求的系统。随着使用时间越来越久,用户对于容量或性能的需求可能会增加,通过扩展构件化模块能够很容易满足用户的需求。例如,用户刚开始使用48TB的裸容量,包括24块硬盘驱动器(使用2TB Nearline SAS驱动器),吞吐量接近2.4GB/s。 Dell&Terascala HPC存储方案预先配置了48TB的裸容量并能够根据需求进行扩展,包括了全冗余元数据方案(两台Terascala服务器、一台MD3220)以及一个基对象(base object)(一对OSS服务器交叉连接到两台MD3200存储阵列)。随着时间的推移,如果容量需求增加,可以在MD3200后面增加PowerVault MD1200磁盘扩展柜来扩大容量。例如,每一台MD3200后面都可以增加一台由12块2TB Nearline SAS 驱动器组成的MD1200,这样总存储系统容量就可以达到96TB。如果初始性能要求总吞吐量高于2.4GB/s,或者随着时间的推移对吞吐量的要求更高,可以通过增加第二台对象服务器节点使总吞吐量和容量翻倍。例如,通过增加第二台48TB的OSS节点,可以设计出一个总吞吐量为4.8GB/s、总容量为96TB的系统。为使系统保持平衡,所有的OSS节点都应该具备相同存储容量。

  Dell&Terascala HPC存储方案包括三类网络。主数据网络是被计算节点所使用的QDR InfiniBand网络, Lustre文件系统的流量流经该网络。DT-HSS可以用四倍速率(QDR) 的IB 主机通道适配器 (host-channel adapters,HCA) 或 10Gb 以太网适配器进行配置。第二类网络是Terascala管理控制台用来收集来自DT-HSS组件的数据并向DT-HSS组件发送命令的以太网络,Terascala 管理控制台提供了简单、易操作的GUI来管理整个存储系统。第三类网络同样是以太网络,为MDS节点和OSS节点提供心跳,该心跳用于故障切换。

  完整的Dell&Terascala HPC存储方案通过使用Terascala管理控制台(Terascala Management Console,TMC)的TMS1000管理设备管理。图8显示了管理控制台的示意图。TMC提供了一个中央管理控制界面,可以对Lustre文件系统执行所有必要的操作。可以使用TMC手动执行Lustre指令但是没有必要成为一名Lustre文件系统专家,因为中央管理控台已经为你提供了操作界面。

HPC存储非常好的实践系列之:快速暂存方案
▲图2. Dell&Terascala HSS 管理控制台

  总之,Dell&Terascala HPC 存储提供了一个完整的可扩展、高性能的存储方案, 既可以轻松获取,部署及管理,又可以从Dell和Terascala得到全面的支持。Dell&Terascala HPC 存储可以根据用户的需求非常容易地扩展容量并提高性能,无需增加管理费用。请访问Dell&Terascala HSS网站获取Dell&Terascala HSS的详细配置信息。

  Dell&Terascala HSS性能

  本节描述Dell计算试验台(compute test bed)使用第二代 Dell&Terascala HPC 存储方案(DT-HSS-2)作为高吞吐量存储设备所进行的连续读/写性能测试。本测试使用基准测试程序IOzone测试了DT-HSS-2解决方案的大型连续读与连续写吞吐量。每个基准测试线程写入存储系统的不同文件时采用N对N存取方式。IOzone测试通过填满高速缓存计算节点、OSS服务器以及存储阵列的缓存(cache),将缓存的影响减少到最小。例如,每个IOzone线程使用48GB的文件进行大型连续写测试,下图显示了所得到的测试结果。测试基于配置了96TB裸容量的DT-HSS-2,它由两台主/主对象服务器组成。

HPC存储非常好的实践系列之:快速暂存方案
▲图3. HSS-2 N-to-N 连续读写性能

  上图表明对于96TB的配置,从4个并发请求/线程开始一直到64个并发请求/线程,连续写带宽一直保持在2600 MB/s左右,能够满足多数并行应用程序的I/O请求。连续写带宽从1400MB/s上升至2600 MB/s归功于Lustre文件系统使用InfiniBand网络传输流量。该图同时也表明从8个并发请求开始,在cold cache条件下(在每次连续读取测试之间均清除客户端和服务器缓存)连续读吞吐量达到了最大值,大约为2400 MB/s。在所有情况下,为了匹配Lustre 1MB大小的RPC数据包,请求的大小均设置为1024KB。

  推荐阅读:高性能计算专区

 

  创建你自己的快速暂存

  尽管一些用户喜欢具有全面支持的存储设备,这样可以充分利用其带来的管理及支持的简单性。但是另一些用户却想要全面的控制以及高度的灵活性。为满足这些用户的需求,Dell提供了在Dell设计实验室与合作伙伴共同完成的架构及配置指南。其中一个例子就是Dell与剑桥大学的合作。

  Dell与学术机构,科研院所,研究机构及企业展开广泛合作,为它们提供经过定制的、最优的HPC解决方案。例如,Dell-剑桥HPC解决方案中心,它是英国剑桥大学HPC Service的一部分,已经生产了一个定制的Dell Lustre 存储构件块用于部门和工作组环境。剑桥大学使用该定制的Dell Lustre组件高效满足了某用户群对大型计算高I/O负载的需求。

  剑桥HPC Service已经成功地在生产环境中使用Dell Lustre存储构件块构建了300TB的中央集群文件系统满足HPC中心的操作需求,该系统已经运行了几年时间了。

  Dell PowerEdge及PowerVault产品线是Dell Lustre存储系统的基础。特别是Dell PowerEdge 2950服务器、Dell PowerEdge 1950服务器以及Dell PowerVault MD3000磁盘阵列、Dell PowerVault MD1000磁盘阵列是Dell Lustre存储系统的构件块。

  Dell Lustre构件块展示了Lustre文件系统良好的性能,几乎达到了裸机性能的80%,后端读写I/O带宽接近400MB/s。Dell Lustre构件块通过千兆以太网连接到客户端节点,每个客户端能达到100MB/s的I/O带宽。随着客户端的增加,性能将线性扩展直至后端存储带宽达到饱和。

  剑桥HPC Service在几年前就构造了由六个构件块组成的大型Dell Lustre存储解决方案并用于生产环境。该解决方案展示了多个存储阵列性能的可扩展性,I/O带宽超过了2GB/s而且具有高度的灵活性及安全性。该解决方案运行几年以来,非计划停机发生的概率低于千分之五。因此Dell Lustre构件块是满足大型HPC学术或研究中心性能与运行的需求的一个很好的选择。

  Dell和英国剑桥大学研发的Lustre解决方案的详细信息记录在了名为“高性能,开源,Dell Lustre存储系统”的白皮书中。该白皮书描述的方法论及相关步骤可以用来构建并部署基于最新一代Dell PowerEdge服务器(比如用于OSS或MDS的Dell PowerEdge R710)及Dell PowerVault MD3200/MD1200存储阵列的Lustre解决方案。

   HPC分级存储管理

  技术性数据一旦被创建,通常只在很短的时间内被使用,之后便很少被访问了。但是仍然要能够继续访问这些数据。既然这些数据仅需要被访问,对性能没有相关的要求,为什么不把这些数据迁移到更加廉价的磁盘或磁带上呢?这样做不仅节约了成本,而且带来了其他操作上的好处。

  Dell采用了称为分级存储管理(Hierarchical Storage Management,HSM)的方法,从字面意思看,HSM实现了以下三大功能:

     在一个分层的虚拟环境中自动管理存储子系统

  在不同的存储层之间持续监控并自动迁移文件和数据

  最终用户及应用程序不用管文件及数据实际的存储位置,他们一直能够访问这些文件及数据

  产生新的存储预算及容量需求时,通过走捷径能够满足这些需求。意识到并不是所有的HPC存储都需要快速访问或者直接连接到HPC计算资源,这时使用HSM系统能够为满足容量及预算需求提供帮助,可以将不需要频繁访问的数据迁移到大容量在线存储或磁带上。在很多情况下,不必牺牲HPC性能货吞吐量,也不会超出存储预算,总的存储容量仍可以显著增加。

  HSM系统基于管理员定义的策略在多个存储层之间监控并迁移数据。HSM系统通常留下文件元数据(比如文件名,大小等等)的存根。HSM系统可以创建大量的存储迁移策略,以下是两个例子:

  “如果文件在6个月之内没有被访问,将它迁移到磁带上并创建两个副本。”

  “如果数据归Johnson所有,将它迁移到磁带上。”

  HSM系统将数据转移到更慢的存储的过程称之为迁移,将数据从更慢的存储回迁数据的过程称之为回迁(recall)。

  HSM系统有别于备份系统,不应该将HSM系统与备份系统相混淆。HSM更多关注数据的可用性,而备份更多关注的是数据在某个时间点的拷贝。例如,因为备份时间窗口过长,备份1PB的数据几乎是不可能的。然而HSM系统可以很好的运行于超过1PB数据的环境中并使用多个数据副本提供数据的可用性。然而在使用HSM系统迁移数据后,备份系统可以用来备份和该数据相关的元数据。

  当你需要在系统中增加存储组件时,Dell HPC存储解决方案为你提供了足够的灵活性。当数据卷容量超出现有容量,增加HSM系统将允许你继续访问没有被频繁使用的数据。Dell为HSM系统提供了模块化方式,你可以从使用Dell PowerVault DL2200备份设备开始,该设备使用Commvault提供了非常强大的HSM功能。Dell PowerVault DL2200可以和诸如Dell ML6000系列的磁带机进行捆绑,该组合能够享受Dell全球范围内的支持及配送。

  我们在HPC HSM中使用了Commvault的归档功能。Commvault允许文件被迁移或回迁到任意的磁盘,磁带,PowerVault DX6000系列数据归档存储或者是上述三个设备的组合。迁移数据文件时,将迁移数据块并保留有关数据文件的元数据存根。Commvault同样存储使用数据块存储元数据的副本,这样即使元数据存根被意外删除仍然能够将它恢复;或者在原始存储完全失效的情况时,仍然能够恢复被迁移的数据。

  HSM实际是Commvault归档功能的一个子集,Commvault同样能够归档数据,使数据从主存储迁移到磁带或磁盘存储中。当需要时,可以使用Commvault GUI恢复这些数据。除此之外,Commvault对已经迁移或归档的数据提供了“法定保留”(legal hold)功能。如果项目正在接受审查或者用户、数据集发生了某种状况,法定保留允许你冻结这些数据直至审查结束。

  Dell HPC存储战略是灵活性之一。你可以使用PowerVault DL2200以及简单的磁带或者基于磁盘的存储来创建HSM。如果需要更多的容量,你可以很容易的添加另一个磁带库或者更多的磁盘存储。如果需要提高性能,你可以添加磁盘,磁带驱动器或者具有磁带驱动器的磁带库更快的迁移或回迁数据。所有的扩展都不必移动已经迁移或归档的数据。

  Commvault同样具有非常灵活的策略,只要能够通过网络访问PowerVault DL2200,管理员可以在Windows系统或者Linux系统上访问中央管理工具控制这些策略。这些策略非常灵活,允许管理员定义数据迁移的时间窗口以减少网络流量。同样可以给特定的用户分配管理权限,允许单个组或团队控制他们自己的HSM策略集。只要共享相同的硬件就可以进行上述设置。当你将磁带从磁带库中取出或者重新放回磁带库时,Commvault能够自动识别上述操作,这一特性在满足离线需求时非常有用。

  如果你没有备份解决方案,在提供HSM功能的同时,Commvault同样提供了企业级的备份解决方案。许多其它的HSM解决方案将备份完全分离开来,为了备份需要将磁带库进行分区。Commvault允许备份和HSM系统共享硬件,不必对磁带库或者磁盘存储进行分区。

  总之,Dell磁带库,PowerVault DL2200以及Dell HPC存储为HPC提供了一个非常强大、非常灵活的HSM解决方案。

0
相关文章