数据中心存储 TCO 模型-服务器专区

数据中心存储 TCO 模型

作者：常华Andy 编辑：陶然 2022-03-17 09:04 Andy说IT

　　概述

　　总拥有成本（TCO）提供了一种通过计算与购买和运行 IT 设备相关的所有成本来了解客户如何做出购买决策的方法。不同客户的业务目标和购买标准差异很大，因此，一刀切的总体拥有成本模型并不足以满足所有存储工作负载。我们通过检查存储的资本支出（CapEx）以及典型数据中心机架中通常主导 IT 预算的所有其他内容，以及由电源、冷却和设备故障成本主导的模型运营支出（OpEx），定义了非常适合存储的 TCO 模型。这对于对比专门面向持久存储的产品和解决方案非常有用。

　　总体拥有成本模型有哪些内容

　　数据中心的总拥有成本分为资本支出（CapEx）和运营支出（OpEx）。资本支出通常受数据中心内的限制，可能包括硬件采购（计算，网络和存储）的价格，要管理的IT设备，软件和操作系统以及安装费用。数据中心本身的资本支出（包括建筑、房产、政府、税收、其他费用）和业务增长因公司而异。当前的 TCO 模型将数据中心资本支出作为以“机柜费用/年”（Rack Cost per Year）的一项固定支出。运营支出包括能耗、设备折旧、维护、维修、IT 软件许可和数据中心员工成本。

　　有效容量（Effective capacity）被标记为 “TBe”（terabytes effective）。这是复制、容量利用率和数据缩减（压缩、重复数据删除等）后的实际可用存储空间。由于原始存储的整个资本支出成倍增加，这对总体拥有成本产生了巨大影响。企业存储、全闪存阵列和其他公司在考虑存储的成本/TB（cost / TB）时，通常会公布有效容量。

　　总体拥有成本 TCO 指标

　　在对存储的总体拥有成本进行建模时，有许多指标可能很重要，包括总体系统级性能、耐用性和总容量。此模型主要关注 TCO $ / TBe / 机架 /月的 TCO。大型和小型数据中心都以此作为参考，以比较当前部署与未来部署，这些部署仅针对存储持久存储进行了优化。TCO 由每个 TBe 的资本支出组成，该资本支出采用所有 IT 硬件和机架的总成本，并将它们与存储的总成本相加，并在有效容量总量中摊销这些成本。运营支出由电源、冷却和驱动器故障组成，并且在每个机架的有效容量范围内摊销类似。此模型不包括软件许可成本，但如果需要，可以轻松将其添加到机架配置成本中的任何静态字段中。

　　对机架配置进行建模

　　模型中的机架输入有两列，分别表示一个 HDD 配置和一个 SSD 配置，以便进行有用的比较。每个 JBOD 的驱动器总数、每个服务器的驱动器总数以及每个机架的 JBOD 和服务器决定了每个机架的总容量，以 TB 或 PB 原始容量表示。此机架将机架中用于 TCO 计算的非存储组件的总空间和总功率相加。由于数据中心机架具有各种功率、重量和空间配置，因此模型中不应用任意约束。对于该型号的标准用户，可以假设标准机架具有42U的空间和大约12kW的功率。

　　驱动器

　　该模型分为硬盘驱动器（HDD）驱动器和固态驱动器（SSD）输入。这些对应于每个设置的机架配置。驱动器的容量、活动和空闲功率规格（与占空比一起用于估计总功耗）、年故障率（以 % 为单位）（型号驱动器故障和更换成本）以及以平均价格（ASP）为单位的成本（需要匹配）需要输入。

　　工作负载

　　驱动器性能对TCO的影响

　　SSD当然比HDD快得多，因此在尝试实现特定的SLA或IOPS数量时，查看应用程序性能驱动的TCO模型很可能会偏向于SSD。TCO 模型中可对输出产生重大影响的工作负载输入包括容量利用率因子、错误编码因子、多工作负载复制因子和数据缩减技术。

　　性能乘数（Performance multiplier）是 SSD 相对于 HDD 在性能或 QoS 方面的优势，表示为达到特定 IOPS、QoS 或带宽所需的 HDD 乘数，并且是表达设备之间应用程序性能差异的更简单方法。当更频繁地访问数据时，所需的 IOPS/TB 量会增加。复制架构（下面介绍）也可能影响性能，因此请注意不要双倍下降，因为这是模型中的乘数。

　　容量利用率（Capacity Utilization）是指在总可用容量中所用的总存储设备中所占的百分比。通常，由于已满时对性能的影响，驱动器会留下一些可用空间，并确保为传入数据提供足够的可用容量。

　　错误编码/复制（Error encoding / replication）考虑了复制和数据保护模式，如RAID或纠删码。例如，镜像数据将产生系数 2，三重复制将产生 3。SSD通常比HDD具有优势，因为它具有可靠性，重建性能和耐用性，可以降低开销并具有相同或更好的数据持久性。包含一个参考选项卡，用于显示 RAID 5、RAID 6 和纠删码的常见开销。

　　数据缩减率（Data Reduction Ratio）是按百分比的缩减率，是存储的主机数据与所需物理存储的比率。例如，50% 的比率相当于 2:1 的数据缩减比例。由于数据缩减允许用户存储比物理硬件上更多的数据，因此最终的有效容量会增加。压缩、重复数据删除等技术可以大大减少满足"可用容量"要求所需的原始容量。与HDD相比，SSD在使用现代算法进行压缩方面具有优势，并且由于性能更高（IOPS和带宽）而减轻了负载。这在很大程度上取决于数据的性能和访问频率，以及压缩发生的位置（超出此模型的范围）。虽然压缩率取决于算法，而不是存储设备类型，但压缩和解压缩速度将受到磁盘访问速度（IOPS）的限制。对于全闪存阵列的行业领导者来说，数据缩减是他们在定制软件中的附加值，他们经常引用全闪存来实现高水平的DRR，同时提供高性能。

　　另一个例子是VMware vSAN，其中压缩和重复数据删除仅在全闪存配置中提供。现代压缩算法，例如，来自Facebook的ZStandard，可以实现比HDD读/写快得多的压缩和解压缩速度，从而允许在SSD上实时使用算法。它还为闪存提供了好处，通过字典文件具有小文件可压缩性，可显着提高数据库压缩性能。PCIe 加速器、FPGA、卸载和英特尔®快速辅助技术通常用于执行实时加密、压缩和重复数据删除，由于需要实时要求和高吞吐量，高性能 NVMe 固态盘具有巨大的优势。

　　占空比（Duty Cycle）是驱动器在部署期间处于活动状态的时间百分比。这仅用于有源和空闲功率假设。在频繁访问的热存储或温存储中，延迟很重要，设备永远不会降速或进入接近零的空闲电源状态。在访问频率低得多的较冷或归档存储中，可以使用较低的空闲电源设置。

　　运营支出

　　功耗（Power）是数据中心运营支出的最大驱动因素之一。电源也是机架设计和管理方式的主要制约因素。模型中电源的运营支出是通过对机架中 IT 设备（服务器、交换机、JBOD 等）的功耗和存储的总功耗求和来计算的。存储的功耗使用占空比进行建模，该占空比指示设备处于空闲状态与活动状态的频率，并估计部署期间消耗的总能量。计算总耗电量后，能耗（以千瓦时为单位）和成本将使用以美元/千瓦时为单位的固定常数计算，并计算数据中心 PUE。PUE被定义为数据中心总能耗与同一时期计算，测量或评估的信息技术设备能耗的比率。在效率较低的数据中心中，与PUE非常低且通常从可再生能源消耗大量能源的超大规模数据中心相比，通常使用较大的PUE。

　　冷却成本（Cooling costs）—— 典型的数据中心在冷却成本上花费了大量的运营支出。该模型只是假设冷却成本内置于IT设备（风扇，液体冷却等）中，而不是从数据中心级别查看它。如果给定机架电源的冷却成本是已知且固定的，则可以将其添加到机架部分中，以在给定的存储容量上摊销固定数据中心成本。

　　部署大量存储时，驱动器故障（Drive failures）是不可避免的。设备制造商通常以MTBF（平均故障间隔时间）或AFR（年度故障率）列出其故障率。这些在数学上是相关的，用MTBF = 1 / AFR * 365 * 24表示。众所周知，SSD的故障率低于HDD，因为它们没有移动部件，并且不易受到机械磨损。SSD故障是众所周知的，并且具有与HDD完全不同的故障机制。HDD故障通常超过供应商列出的故障，独立研究表明，在过去7年的部署中，平均AFR为1.58%。在非理想条件下，在高温、潮湿或超过硬盘额定工作负载（类似于固态硬盘的耐久性）时，硬盘故障接近 4% AFR。

　　该模型计算来自机架输入的驱动器总数，并找到我乘以部署项的驱动器小时数总数。然后，将其除以以小时为单位的 MTBF，以估计部署期限内的设备故障数。提供固定的更换成本，以派遣技术人员维修故障设备。假定企业级硬盘和固态硬盘享有 5 年保修，因此不承担实际存储的硬盘更换成本。

关注我们