【IT168 访谈】在数据为王的时代,没有人会去质疑数据的重要性。但随着数据量的不断激增,对于数据的存储和有效管理成为不得不面对的难题。究竟怎样的存储架构才真正符合当前企业的实际需求?存储市场的未来又将是何去何从?带着这些问题,我们和字节跳动架构师周超勇进行了简单的沟通。
作为在CDN行业摸爬滚打多年的行业专家,周超勇曾先后担任蓝汛和金山云CDN架构师,其主要关注CACHE设计、存储设计、存储与业务分离等,开源有DMA、XFS、XCACHE和BGN等技术。精通数学的周超勇曾完全自主开发并行与分布式计算平台BGN,而在他自己看来,BGN的开发则是出于自己的“无知”。目前,周超勇在字节跳动做边缘计算架构师,主要关注算力分发和算力网络建设。用周超勇自己的话讲:“从ECC到CDN到边缘计算,从计算到流量再到算力,不变的是对并行和分布的追求,对指挥千军万马,协同作战,提高人类欲望上限的追求。”
从CDN架构和业务变迁看IT架构演变
借助多年从事CDN行业的工作经验,周超勇认为,通过CDN架构和业务的变迁能够间接了解IT架构的演变。周超勇在蓝汛初次接触CDN架构时,已经是蓝汛的第二代架构,它基于SQUID开发了一套框架,允许研发人员以模块的方式实现框架的HOOK点,满足数以万计客户的定制化需求。据介绍,其业务以页面加速为主,设备部署以单机为主,配千兆网卡,SATA HDD盘。主要挑战来自于客户需求的多样性、架构的复杂度和耦合度。
随后,下载类和视频类业务崛起,万兆网卡出现,设备集群化部署以增大存储容量和网卡吞吐量,SQUID框架难以为继,开始切换到以NGINX为核心的新一代CDN架构,其主要挑战来自于存储。
接着,云厂商的加入导致CDN市场竞争加剧,价格压缩迫使CDN厂商在商业模式做出改变,传导到架构上分化出一批更专业的、有针对性的设计方案。彼时,分层部署方式涌现出来。
近两年,SSD盘、25G/100G网卡的引入,逐步消除了磁盘IO瓶颈和网络IO瓶颈,导致架构有所演进,出现DMA、RDMA、SPDK、DPDK这类技术。新硬件的出现,使得传统的瓶颈点发生转移,迫使架构朝零拷贝技术、低延迟大带宽网络、旁路内核的方向演进。
周超勇提到,CDN架构多数是在开源基础上演进而来,覆盖若干开源项目,并开展定制化改造工作。部分有实力的企业开展自研,但产品技术栈也会覆盖若干开源项目。因此,“CDN架构 = 开源项目 + 定制化改造”并无不妥。
但是,必须明确指出:CDN架构,特别是CACHE的架构,用到的开源项目只是给了一个基本的脚手架,重点还是在定制化改造。这是由客户业务需求的多样性、需求满足的及时性、和成本控制的精细度决定的,它要求企业必须对软件有足够强的掌控能力、深度定制改造能力。“早前蓝汛在SQUID上拉起的一套框架是个例子,后来集群化部署架构是个例子,缓存存储则是个教训。”周超勇如是说,他认为架构的深度改造、融合嫁接、拆分组合,应视为研发的常态化动作。
此外他认为,CDN架构的演进是市场竞争、客户需求和硬件发展共同推进的结果,逐步从定制化需求为主,过渡到流量为主,过渡到软硬结合控制成本为主。CDN业务发展到以控制成本为主时,表明商业运营已步入红海,业务形态进入稳态或死海。但20年来CDN发展沉淀下来的技术架构、网络运营和商业模式可以迁移,比如从内容分发网络迁移至算力分发网络、服务分发网络。而CDN架构的这些演变,可以视为IT架构演变的一个缩影。
存储市场未来大概率会被NVMe盘统一
当提到存储市场的未来,周超勇认为,存储市场未来大概率会被NVMe盘统一。而针对这一预测,周超勇也进行了详尽的说明:
●PCIe换代突破带宽限制:未来几年存储技术变革将会呈现加速发展的趋势,PCIe 将从现在的PCIe Gen3快速迭代到PCIe Gen6,每提升一代,单位带宽将提升一倍;也就是说5年后的PCIe的单位带宽将是现在的8倍;而SATA接口的速度则不会继续提升,和NVME 的理论带宽差距将从现在的6倍拉大到48倍。在分布式存储领域,传统SATA机械盘的IO瓶颈将相对更加突出。
●存储介质变革突破容量和性能限制:磁性介质不可能在容量上有大的突破; SATA SSD受限于SATA接口,性能仅能达到SATA HDD翻倍的效果,而且容量小,成本高;而基于PCIe的NVMe盘容量取决于电子技术水平,俘获电子能力越强,电压测量精度越高,容量越大,很容易实现翻倍,2T/4T/8T已规模应用,16T/32T在路上,64T不是梦。基于NVMe的QLC和PLC SSD将很好的平衡价格和每GB的性能。
●存储介质进一步突破:对比接口速度的提升,NAND介质的性能将成为新的IO瓶颈,这会马上发生在明年的PCIe Gen4的服务器平台上。革命性的SCM介质将接棒NAND SSD,作为本地快速存储引擎的主要材质,提供高带宽、低延迟的服务。
相约SACC 2020:探讨高性能存储系统 XFS 的架构实践
周超勇作为SACC中国系统架构师大会的老朋友,将于今年10月22日~24日举办的第十二届中国系统架构师大会(SACC2020)上,以《高性能存储系统 XFS 的架构实践》为题展开精彩的议题分享。
根据周超勇介绍,XFS 是一款用户空间的面向小文件的、带目录的、高性能存储系统,目前为成熟态,开源。XFS 起源于CDN CACHE 存储,而像XFS这种带目录的存储也是十分罕见。XFS究竟有哪些优势,又能满足用户哪些实际需求?我们先来卖个关子,感兴趣的朋友到时候我们云端会议见!
2020年10月22日~24日,由IT168旗下ITPUB企业社区平台主办的第十二届中国系统架构师大会(SACC2020)将在云端进行网络直播。自2009年以来,SACC架构师大会已成功举办了十一届,云集了国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术人群,与会规模超千人。
2020年即将迎来SACC中国系统架构师大会的12岁生日,恰逢一个小轮回。SACC2020 中国系统架构师大会已经整装待发,奋起逆袭,期待您的报名参与,我们共襄盛举!欲了解更多有关大会的精彩内容请访问SACC2020官网:http://sacc.it168.com/index.html