百度智能云Redis容量版设计与实践-服务器专区

百度智能云Redis容量版设计与实践

作者：陶然编辑：陶然 2023-04-27 22:15 IT168网站原创

　　本文根据刘东辉老师在【第十三届中国数据库技术大会（DTCC2022）】线上演讲内容整理而成。

　　Redis作为“扛流量”和“加速”的利器，在百度集团内部有着极其广泛的应用。但由于数据全部存储在内存，Redis成本高昂，为此我们研发了兼容Redis协议、大容量、低成本的Redis容量版产品，在简单KV场景下性能为Redis 70%，单GB成本相比Redis降低80%+。

　　本次分享会阐述百度智能云Redis容量版（PegaDB）的设计与实践。内容包括：PegaDB简介及应用场景；PegaDB内核技术及实践经验；百度智能云Redis内核团队与开源社区的合作；PegaDB后续规划。

　　百度智能云Redis容量版概述

　　百度智能云Redis容量版又叫PegaDB，它是一个完全兼容Redis协议、大容量、低成本、高性能的分布式KV数据库。PegaDB具备以下特点：

　　1，全面兼容Redis，支持业务平滑迁移；

　　2，支持水平扩展，单集群PB级存储；

　　3，基于SSD构建，单GB成本相比Redis降低80%+；

　　4，支持毫秒级在线数据处理；

　　5，支持异地多活架构，提供多地域容灾能力；

　　6，支持可调一致性、冷热分离、JSON数据模型等企业级特性；

　　PegaDB典型应用场景包括：大数据量场景，Redis存储成本高；开源KV数据库，在性能、功能和可用性方面无法完全满足需求；典型冷热分离场景，传统Cache + DB架构，业务开发复杂度高。目前PegaDB已广泛应用于百度凤巢、Feed、手百、地图、度秘等多个核心业务。

　　百度智能云Redis容量版设计与实践

　　PegaDB设计与实践丨背景

　　首先介绍一下研发PegaDB的背景。最早设计PegaDB主要是为了解决百度集团在使用Redis过程中遇到的成本和容量问题。要知道，Redis是内存存储，开启持久化时需要额外预留内存，存储成本较高；同时，Redis单个集群的容量是有限的，公有云产品最大支持4TB，无法支撑大数据量存储；不仅如此，百度集团还有其它KV数据库，在兼容性、通用性、易用性也存在一定的问题。

　　明确了业务痛点，PegaDB的定位也就清晰了。大容量、低成本、兼容Redis、通用KV存储，同时还要具备高性能、高可用、可扩展等分布式存储系统必备的特性。

　　PegaDB设计与实践丨业界方案

　　兼容Redis协议的KV数据库，大致有如下三类方案：

　　第一类方案以Pika、Kvrocks为代表，采用基于磁盘的设计，数据全部存储在磁盘，在单机KV存储引擎RocksDB之上实现Redis的数据类型。但这类方案目前都没有成熟的集群方案去解决扩展性问题，同时还存在性能、不支持多活架构等问题。

　　第二类方案以Meitu Titan、Tedis为代表的，也是采用基于磁盘的设计，数据全部存储在磁盘，但是在分布式KV存储引擎TiKV之上实现Redis的数据类型。但这类方案通常对Redis兼容性不太好，同时也存在性能、不支持多活架构等问题。

　　第三类方案以Redis On Flash为代表，数据存储在内存和磁盘，在内存中存储热点数据，在磁盘中存储冷数据, 可以调整内存和磁盘的配比。这类方案基于Redis二次开发，再组合单机KV存储引擎RocksDB去扩展存储容量，但这类方案比较适合数据冷热区分明显的场景, 存在通用性问题，同时也存在大Value场景性能不好等问题。

　　PegaDB设计与实践丨设计选型

　　PegaDB在选型时面临的主要问题有: 是二次开发还是从0开始？如果二次开发，基于哪个开源项目进行开发（Pika、Kvrocks、Ardb ……）？

　　出于研发人力、项目上线时间等因素考虑，选择了基于开源项目进行二次开发。考虑到代码简洁性、方便二次开发、设计思路及发展规划契合度等因素, 最终选择了基于Kvrocks进行二次开发，并深度参与开源社区建设。

　　PegaDB设计与实践丨Kvrocks介绍

　　Kvrocks是美图公司开发的一款分布式KV数据库，并于2019年正式开源。使用RocksDB作为底层存储引擎并兼容Redis协议，旨在解决Redis内存成本高以及容量有限的问题。　　

　　接下来分享一下Kvrocks的基本设计思路。

　　Kvrocks是基于RocksDB存储引擎来封装Redis的数据类型，Hash等复杂数据类型会被拆分为多条KV数据；同时为了提升性能，Kvrocks采用了多Worker线程的处理模型；多副本间数据复制，Kvrocks同Redis一样采用了主从复制的方式，不过增量复制是基于引擎WAL的“物理复制”；此外，Kvrocks还借助RocksDB Compaction Filter特性实现了数据过期，并通过增加Version信息实现了大Key秒删。

　　PegaDB设计与实践丨Kvrocks不足

　　针对百度的业务场景， Kvrocks存在一定的不足。扩展性方面，Kvrocks不支持水平扩展，无法支撑业务几十TB甚至百TB级规模数据存储；性能方面，Kvrocks在大Value、冷热区分明显等场景下存在性能问题, 无法满足业务高QPS和毫秒级响应延迟的需求；可用性方面，由于Kvrocks和Redis一样，选择了异步复制模型，无法满足较高一致性需求； Kvrocks不支持多活架构，无法满足业务地域级容灾需求；功能方面，Kvrocks不支持Redis4.0以上版本命令、事务、Lua、多DB特性，无法满足使用高版本Redis业务平滑迁移的需求。

　　为此，结合生产环境中实际遇到的问题，PegaDB在Kvrocks基础上做了很多改进：

　　PegaDB设计与实践丨集群方案

　　对于扩展性需求，首先需要支持集群。在数据分布策略选择上，PegaDB选择了同Redis-Cluster一样的思路，预分配固定数量的Slot。在集群架构方面选择了中心化的架构，由MetaServer统一管理集群元信息。

　　同时，PegaDB的集群架构不强依赖代理层，支持MetaServer向PegaDB下发拓扑，完全兼容Redis-Cluster SDK。　　

　　由于实际生产环境业务的数据规模和访问量是不断变化的，PegaDB集群还需要具备弹性伸缩的能力。

　　PegaDB设计与实践丨扩缩容设计

　　对于数据库这种有状态的服务，集群的扩缩容，主要有两个问题要解决：数据迁移和拓扑变更。

　　PegaDB集群的数据分布到固定数量的Slot，每个PegaDB负责一定数量的Slot，数据迁移就是将源节点中的一部分Slot搬迁到目标节点。PegaDB数据迁移采用了类似选择性复制的思路，迁移流程分为全量数据迁移、增量数据迁移两个阶段。

　　全量数据迁移借助RocksDB Snapshot 快照将需要迁移的 Slot 所包含的 Key 迭代出来，同时在 Key 编码中增加了 SlotID，这样同一个Slot的Key会存储在一起，显著提升了迭代效率。PegaDB 增量数据迁移直接使用了引擎层的 WAL 日志，这种方式不需要经过Redis协议解析和命令处理，相比发送原生Redis命令的方式更加高效。

　　此外，为了迁移时不影响正常请求，使用了独立的迁移线程，并且通过支持Slot并发迁移，利用RocksDB Delete Range特性清理源端数据来提升效率。为了保证数据一致性，拓扑变更期间会有短时间禁写，通常是毫秒级。　　

　　PegaDB设计与实践丨主从复制优化

　　介绍PegaDB对主从复制的优化前，先简单回顾下Kvrocks的主从复制实现。Kvrocks和Redis主从复制思路类似，都包括全量复制和增量复制。Kvrocks在全量复制方面基于RocksDB Checkpoint数据快照，增量复制基于引擎层WAL的“物理复制”，并且基于WAL seq_id实现了断点续传。　　

　　但是Kvrocks复制模型有两个典型的问题：第一，无同源增量复制保证主从切换会带来数据不一致；第二，异步复制模型，主从切换可能会导致数据丢失。

　　PegaDB是如何针对上述两个问题进行优化的呢？ PegaDB引入了复制ID的概念，当实例成为主库时会生成新的Replication ID（复制历史的标识），每条写入RocksDB的操作都包含一个单调递增的Sequence ID和Replication ID，只有从库Replication ID与主库相同并且Sequence ID小于主库时才可以进行重同步。由于Sequence ID和Replication ID是存在于WAL中的，因此不仅支持Failover后部分重同步，而且支持重启后部分重同步。　　

　　针对第二个问题，PegaDB采用了半同步复制的方案，其具有更强的一致性，支持配置同步的从库个数，并且支持超时机制。此外，PegaDB的代理层还支持配置请求粒度读取一致性。

　　PegaDB设计与实践丨性能优化

　　为了更好的满足业务需求，PegaDB在性能方面也做了很多优化。本次分享主要介绍PegaDB在存储引擎、缓存、数据编码方面所做的优化。

　　存储引擎方面，LSM引擎存在明显的写放大问题，尤其在写入量比较高的大Value场景下，经常会触发磁盘带宽瓶颈，导致性能显著下降。对于这个问题，业界有WiscKey和PebbleDB两种典型的方案， WiscKey采用了Key Value分离的思路，PebblesDB采用了弱化全局有序约束的思路。由于PebbleDB没有成熟的开源实现，最终我们选择了WiscKey的思路。对于WiscKey的方案，当时有Badger、TitanDB这两个相对成熟开源实现， TianDB基于RocksDB扩展了Key Value分离的功能，天然兼容RocksDB丰富的特性，而且方便后续升级到高版本RocksDB。而Badger是使用GO语言重新开发的存储引擎，Badger支持的特性相对较少，PegaDB使用了大量RocksDB的特性，选择Badger适配成本较高。再者TianDB也不会有Badger GO语言GC时带来的STW问题，因此最终选择了TianDB，并扩展实现了CheckPoint特性（已提交社区#207）。随着RocksDB社区全新版本的Key-Value分离实现BlobDB（2021年发布）越来越成熟， PegaDB也从TianDB逐步迁移到了BlobDB。　　

　　除了Key-Value分离，PegaDB针对存储引擎还做了很多调优工作，主要有耗时抖动优化、读取优化、写入优化。

　　耗时抖动优化：利用Rate Limiter对Compaction进行限速，支持部分Compaction，升级高版本RocksDB（Compaction有显著优化#9423），使用Partition index/filter；

　　读取优化：Memtable开启全局Filter，Data Block开启Hash索引，L0和L1不压缩，自定义Prefix Extractor，支持配置多CF共享和独享Block Cache。

　　写入优化：Key-Value分离，开启GC预读，开启enable_pipelined_write，开启sync_file_range。

　　接下来介绍一下在缓存方面所做的优化。

　　针对冷热数据区分明显场景通常采用传统Cache（Redis）+DB(MySQL)架构，但是这种架构需要业务自己来维护Cache的DB的数据一致性，业务开发复杂度较高。

　　为此PegaDB支持了热Key缓存，单节点可支持百万级热Key访问，大大简化了冷热区分明显场景的业务架构。

　　RocksDB支持Block Cache和Row Cache, 为什么PegaDB还要再增加处理层的缓存？

　　PegaDB的热Key缓存，相比Block Cache, 粒度更细，缓存利用率高；相比Row Cache，没有Compaction导致的快速失效的问题，缓存命令中更高。　　

　　在编码优化方面，Kvrocks分散编码的方式在批量、范围操作时会涉及多次磁盘IO性能差。PegaDB自定了前缀迭代器，显著提升了迭代效率；同时，PegaDB扩展了紧凑型编码，批量、范围操作时，一次磁盘操作可以读到全部的数据，大大提升了性能。

　　PegaDB设计与实践丨异地多活架构

　　百度很多业务场景对可用性有着很高的要求，需要支持地域级别容灾。这就要求PegaDB支持多地域部署，同时为了降低业务访问延迟，PegaDB多个地域的集群还需要支持就近访问。

　　为此，PegaDB设计了异地多活的架构, PegaDB并没有采用传统基于DTS的方案来进行多个地域间数据的同步，这主要是出于同步性能的考虑。

　　如下图所示，PegaDB设计了SyncAgent同步组件来同步数据，SyncAgent和PegaDB同机部署，并且出于HA考虑SyncAgent在PegaDB主从实例上都会部署，但是只有主库上的SyncAgent会工作；为了避免循环复制，在WAL日志中增加了ShardID信息，ShardID全局唯一，SyncAgent通过ShardID区分是否是本地域写入的数据，SyncAgent只会同步本地写入的数据，因此也就解决了循环复制的问题。为了支持断点续传， PegaDB增加了OpID信息，OpID单调递增，并且会及时更新到配置中心，同步中断后基于配置中心中存储的OpID信息进行断点续传。对于异地多活架构，还需要解决多地域写冲突的问题， PegaDB采用简单的LWW方案（Last Write Win）。　　

　　PegaDB设计与实践丨Json数据模型

　　PegaDB虽然兼容Redis丰富的数据类型，但是业务实际使用过程中仍遇到了一些问题。比如业务要存储JSON格式的数据，只能转换成STRING/HASH数据类型来存储，这就带来了一些问题：1、需要业务对数据进行序列化/反序列操作，增加了开发复杂度；2、读取、更新部分字段，存在读写放大问题；3、并发更新字段时存在数据一致性问题。

　　针对上述问题，PegaDB借鉴RedisJSON Module的思路，原生支持了JSON数据模型，这样做的好处是业务无需再做模型转换，使用STRING/HASH存储JSON格式数据的问题自然也就没有了。

　　PegaDB的JSON数据模型完全兼容RedisJSON Module的协议，同时支持JSONPath语法查询和更新文档中的元素，支持原子操作所有JSON Value类型，并且采用了紧凑型编码存储，天然支持热Key缓存，对于冷热区分明显的场景特别友好。

　　PegaDB设计与实践丨ZSET&HASH命令增强

　　除了JSON等新增的数据类型，PegaDB结合业务需求对现有数据类型也做了很多扩展，比如：ZSET类型支持聚合、结果过滤操作，HASH类型支持Range操作。

　　开源社区协作　　

　　PegaDB从设计之初，就坚定了深度参与社区，与社区共建的思路。截止到目前PegaDB已经持续向Kvrocks社区回馈了主从复制优化、事务、存储引擎优化、集群等多个重要PR。并且与社区一起推进了Kvrocks成为Apache孵化项目，目前百度Redis团队拥有2名Kvrocks PPMC成员（共4名），4个Commiter。后续会继续和社区一起努力让Kvrocks项目发展的越来越好。

　　未来规划

　　未来PegaDB会继续在以下几个方面继续提升，1、借助云基础设施进一步提升弹性能力，发布Serverless产品；2、借鉴Redis Module生态，支持更丰富的数据模型；3、支持连接器，更方便集成大数据生态，简化业务开发；4、通过内核io_uring特性、线程模型优化等方案持续优化性能

　　广告时间：百度智能云Redis容量版（PegaDB）已经在百度智能云正式发布，也欢迎大家使用！　　

｜嘉宾介绍｜

刘东辉

百度资深研发工程师

　　刘东辉，百度智能云Redis内核团队技术负责人，开源项目Kvrocks Core Team成员。近十年一直专注于分布式缓存、存储方向，先后主导过微博、百度NOSQL数据库研发工作，并在DTCC、SACC等技术大会上做过多次技术分享，具有非常丰富的NOSQL数据库内核研发及优化经验。

关注我们