概述
总拥有成本 (TCO) 提供了一种通过计算与购买和运行 IT 设备相关的所有成本来了解客户如何做出购买决策的方法。不同客户的业务目标和购买标准差异很大,因此,一刀切的总体拥有成本模型并不足以满足所有存储工作负载。我们通过检查存储的资本支出 (CapEx) 以及典型数据中心机架中通常主导 IT 预算的所有其他内容,以及由电源、冷却和设备故障成本主导的模型运营支出 (OpEx),定义了非常适合存储的 TCO 模型。这对于对比专门面向持久存储的产品和解决方案非常有用。
总体拥有成本模型有哪些内容
数据中心的总拥有成本分为资本支出 (CapEx) 和运营支出 (OpEx)。资本支出通常受数据中心内的限制,可能包括硬件采购(计算,网络和存储)的价格,要管理的IT设备,软件和操作系统以及安装费用。数据中心本身的资本支出(包括建筑、房产、政府、税收、其他费用)和业务增长因公司而异。当前的 TCO 模型将数据中心资本支出作为以“机柜费用/年”(Rack Cost per Year)的一项固定支出。运营支出包括能耗、设备折旧、维护、维修、IT 软件许可和数据中心员工成本。
有效容量(Effective capacity)被标记为 “TBe”(terabytes effective)。这是复制、容量利用率和数据缩减(压缩、重复数据删除等)后的实际可用存储空间。由于原始存储的整个资本支出成倍增加,这对总体拥有成本产生了巨大影响。企业存储、全闪存阵列和其他公司在考虑存储的成本/TB(cost / TB) 时,通常会公布有效容量。
总体拥有成本 TCO 指标
在对存储的总体拥有成本进行建模时,有许多指标可能很重要,包括总体系统级性能、耐用性和总容量。此模型主要关注 TCO $ / TBe / 机架 /月的 TCO。大型和小型数据中心都以此作为参考,以比较当前部署与未来部署,这些部署仅针对存储持久存储进行了优化。TCO 由每个 TBe 的资本支出组成,该资本支出采用所有 IT 硬件和机架的总成本,并将它们与存储的总成本相加,并在有效容量总量中摊销这些成本。运营支出由电源、冷却和驱动器故障组成,并且在每个机架的有效容量范围内摊销类似。此模型不包括软件许可成本,但如果需要,可以轻松将其添加到机架配置成本中的任何静态字段中。
对机架配置进行建模
模型中的机架输入有两列,分别表示一个 HDD 配置和一个 SSD 配置,以便进行有用的比较。每个 JBOD 的驱动器总数、每个服务器的驱动器总数以及每个机架的 JBOD 和服务器决定了每个机架的总容量,以 TB 或 PB 原始容量表示。此机架将机架中用于 TCO 计算的非存储组件的总空间和总功率相加。由于数据中心机架具有各种功率、重量和空间配置,因此模型中不应用任意约束。对于该型号的标准用户,可以假设标准机架具有42U的空间和大约12kW的功率。
驱动器
该模型分为硬盘驱动器 (HDD) 驱动器和固态驱动器 (SSD) 输入。这些对应于每个设置的机架配置。驱动器的容量、活动和空闲功率规格(与占空比一起用于估计总功耗)、年故障率(以 % 为单位)(型号驱动器故障和更换成本)以及以平均价格 (ASP) 为单位的成本(需要匹配)需要输入。
工作负载
驱动器性能对TCO的影响
SSD当然比HDD快得多,因此在尝试实现特定的SLA或IOPS数量时,查看应用程序性能驱动的TCO模型很可能会偏向于SSD。TCO 模型中可对输出产生重大影响的工作负载输入包括容量利用率因子、错误编码因子、多工作负载复制因子和数据缩减技术。
性能乘数(Performance multiplier)是 SSD 相对于 HDD 在性能或 QoS 方面的优势,表示为达到特定 IOPS、QoS 或带宽所需的 HDD 乘数,并且是表达设备之间应用程序性能差异的更简单方法。当更频繁地访问数据时,所需的 IOPS/TB 量会增加。复制架构(下面介绍)也可能影响性能,因此请注意不要双倍下降,因为这是模型中的乘数。
容量利用率(Capacity Utilization)是指在总可用容量中所用的总存储设备中所占的百分比。通常,由于已满时对性能的影响,驱动器会留下一些可用空间,并确保为传入数据提供足够的可用容量。
错误编码/复制(Error encoding / replication)考虑了复制和数据保护模式,如RAID或纠删码。例如,镜像数据将产生系数 2,三重复制将产生 3。SSD通常比HDD具有优势,因为它具有可靠性,重建性能和耐用性,可以降低开销并具有相同或更好的数据持久性。包含一个参考选项卡,用于显示 RAID 5、RAID 6 和纠删码的常见开销。
数据缩减率(Data Reduction Ratio)是按百分比的缩减率,是存储的主机数据与所需物理存储的比率。例如,50% 的比率相当于 2:1 的数据缩减比例。由于数据缩减允许用户存储比物理硬件上更多的数据,因此最终的有效容量会增加。压缩、重复数据删除等技术可以大大减少满足"可用容量"要求所需的原始容量。与HDD相比,SSD在使用现代算法进行压缩方面具有优势,并且由于性能更高(IOPS和带宽)而减轻了负载。这在很大程度上取决于数据的性能和访问频率,以及压缩发生的位置(超出此模型的范围)。虽然压缩率取决于算法,而不是存储设备类型,但压缩和解压缩速度将受到磁盘访问速度 (IOPS) 的限制。对于全闪存阵列的行业领导者来说,数据缩减是他们在定制软件中的附加值,他们经常引用全闪存来实现高水平的DRR,同时提供高性能。
另一个例子是VMware vSAN,其中压缩和重复数据删除仅在全闪存配置中提供。现代压缩算法,例如,来自Facebook的ZStandard,可以实现比HDD读/写快得多的压缩和解压缩速度,从而允许在SSD上实时使用算法。它还为闪存提供了好处,通过字典文件具有小文件可压缩性,可显着提高数据库压缩性能。PCIe 加速器、FPGA、卸载和英特尔®快速辅助技术通常用于执行实时加密、压缩和重复数据删除,由于需要实时要求和高吞吐量,高性能 NVMe 固态盘具有巨大的优势。
占空比(Duty Cycle)是驱动器在部署期间处于活动状态的时间百分比。这仅用于有源和空闲功率假设。在频繁访问的热存储或温存储中,延迟很重要,设备永远不会降速或进入接近零的空闲电源状态。在访问频率低得多的较冷或归档存储中,可以使用较低的空闲电源设置。
运营支出
功耗(Power)是数据中心运营支出的最大驱动因素之一。电源也是机架设计和管理方式的主要制约因素。模型中电源的运营支出是通过对机架中 IT 设备(服务器、交换机、JBOD 等)的功耗和存储的总功耗求和来计算的。存储的功耗使用占空比进行建模,该占空比指示设备处于空闲状态与活动状态的频率,并估计部署期间消耗的总能量。计算总耗电量后,能耗(以千瓦时为单位)和成本将使用以美元/千瓦时为单位的固定常数计算,并计算数据中心 PUE。PUE被定义为数据中心总能耗与同一时期计算,测量或评估的信息技术设备能耗的比率。在效率较低的数据中心中,与PUE非常低且通常从可再生能源消耗大量能源的超大规模数据中心相比,通常使用较大的PUE。
冷却成本(Cooling costs)—— 典型的数据中心在冷却成本上花费了大量的运营支出。该模型只是假设冷却成本内置于IT设备(风扇,液体冷却等)中,而不是从数据中心级别查看它。如果给定机架电源的冷却成本是已知且固定的,则可以将其添加到机架部分中,以在给定的存储容量上摊销固定数据中心成本。
部署大量存储时,驱动器故障(Drive failures)是不可避免的。设备制造商通常以MTBF(平均故障间隔时间)或AFR(年度故障率)列出其故障率。这些在数学上是相关的,用MTBF = 1 / AFR * 365 * 24表示。众所周知,SSD的故障率低于HDD,因为它们没有移动部件,并且不易受到机械磨损。SSD故障是众所周知的,并且具有与HDD完全不同的故障机制。HDD故障通常超过供应商列出的故障,独立研究表明,在过去7年的部署中,平均AFR为1.58%。在非理想条件下,在高温、潮湿或超过硬盘额定工作负载(类似于固态硬盘的耐久性)时,硬盘故障接近 4% AFR。
该模型计算来自机架输入的驱动器总数,并找到我乘以部署项的驱动器小时数总数。然后,将其除以以小时为单位的 MTBF,以估计部署期限内的设备故障数。提供固定的更换成本,以派遣技术人员维修故障设备。假定企业级硬盘和固态硬盘享有 5 年保修,因此不承担实际存储的硬盘更换成本。