服务器 频道

唯品会机房宕机故障,再再再次为核心业务容灾敲响警钟

  一、容灾无小事,松懈必致命

  6月5日,唯品会(VIPS.N)发布关于329机房宕机故障处理公告。称故障导致公司业绩损失超亿元,影响客户达800多万,基础平台部负责人予以免职处理。



  据媒体信息,此次故影响的不仅唯品会一家,微信、QQ等腾讯旗下社交软件出现功能异常;腾讯将此定义为公司一级事故,对大量相关领导做出了处罚,被予以通报批评。此外,故障影响还包括广东省政务云平台,致众多医疗机构网络服务中断。

  此次故障可以说即在情理之中,又在意料之外。

  情理之中:因为故障直接原因是“南沙机房重大故障”,这类机房重大故障在统计学上属于小概率事件,但也是必然事件,只是发生早晚的问题,如今它发生了,本无需惊慌,这是在情理之中的事情。

  意料之外:类似故障在全球各地几乎每年都会发生,容灾方案已经成为大型企业核心系统IT架构设计的首要目标,但对于以上这样的大型IT企业,以信息化系统为立命之本的科技巨头而言,它竟然还是发生了,这不禁让人有些意外。

  二、QianBase 分布式技术突破、容灾简易、可靠

  这些意外的发生除了管理者、责任人的意识不够外,还有传统容灾方案存在部署复杂、落地困难、管理混乱的原因,通常最终落地的结果和预期目标相差甚远,使核心系统成为“死亡线上的舞者”。

  易鲸捷作为数据库软件研发厂商,深刻的体会到复杂的容灾策略是无法落地的,所以我们为企业核心系统研发分布式数据库QianBase时,完成了两个关键容灾目标:让容灾更可靠,以及让容灾部署更简单、更灵活。

  目标一:让容灾更可靠。这通过以下几个关键能力的实现,完成了这一目标:

  1)彻底去中心化对等部署,提升架构上的可靠性

  QianBase是一款彻底去中心化的分布式国产数据库,不需要管理节点这样的角色,没有单点风险,任意节点故障不会影响服务连续性,这个特性尤其在一些可靠性较低的硬件环境中至关重要。同时,应用可以连接任意节点,并能够提供全局强一致性的数据服务。

  QianBase 软件架构图

  2)高可用、强扩展,数据内部自治,业务稳定运行

  QianBase允许用户在线灵活控制数据副本数量、存储位置,构建高可用集群,默认部署时也能最大允许1/3设备故障,业务依然连续。因为不受单一管理节点资源瓶颈限制,具备EB级存储强扩展能力,支持在线秒级扩容、在线分钟级缩容,满足云计算弹性算力需求。数据库内部实现负载均衡自治管理,数据透明分布,数据热点自动消除,在极其苛刻的业务场景维持系统运行的稳定性。

  3)在线开发与运维、永不停机

  QianBase所有的运维管理操作、开发行为都能够支持在线完成,无需停机,无需终止业务。包括支持在线扩缩容、在线升级、滚动重启,在线节点替换、支持在线DDL业务操作、在线备份与恢复、在线扩展容灾中心等。

  目标二:让容灾部署更方便、更灵活。

  简单性:QianBase能够实现一套分布式数据库,一键跨多数据中心部署,统一运维管理界面,不依赖任何的外部工具软件,即可快速实现可靠的同城两中心、两地三中心、三地五中心,甚至跨越更多区域的容灾部署方案。

  灵活性:QianBase软件内部能够以机房/数据中心为容灾单位管理数据,允许为每个数据中心配置不同的数据副本数量,以及为每个备数据中心设置不同的容灾模式。包括三种容灾模式满足不同的环境与安全需求:

  最大保护模式

  该备机房内部多数派副本与主机房数据保持强一致性,例如设置该备机房保存3份数据副本,那么同一时间必然有2个副本与生产机房保持强一致性。如此配置能够保证备机房数据RPO=0,同时允许备机房50%以下的服务器故障不影响容灾稳定性和业务连续性。该模式一般应用在同城容灾,或者有数据强一致性需要的容灾场景。

  最大性能模式

  设置为该模式的备机房,采用异步复制主机房数据,主机房业务不受备机房数据同步异常影响,业务性能体验良好。该模式经常用在远距离异地机房的容灾方案中。

  最大可用模式

  设置为该模式的备机房,在主备机房环境健康时,采用同步复制(即最大保护模式),实现RPO=0;一旦备机房发生同步异常时,系统会优先保证主机房业务的连续性,将备机房的容灾模式自动切换为异步复制(即最大性能模式)。这样的容灾模式通常应用在有数据强一致性容灾需求,但是备机房设备环境质量较差(如服务器故障、网络故障等经常发生)的环境。

  以下简要展示QianBase同城两中心与两地三中心容灾方案:

  1,同城两中心部署方案

  同城主中心A与备中心B各自部署若干服务器节点,分布设置A与B机房存储3个数据副本,A设置为“主机房”,B为备机房且设置容灾模式为“最大可用”。

  当系统环境健康时,B与A实时保持强一致性,RPO=0。一旦A出现故障,系统可以在30秒(RTO)内将B“升级”为“主中心”承担业务。当B的环境出现异常,影响数据强一致性时,数据库系统会自动将B容灾模式降级为“异步复制”,当B的故障修复后,数据库会自动识别并将B的容灾模式“升级”回“同步复制”。

  2,两地三中心部署方案

  QianBase的容灾灵活性还在于其可以在线的扩展容灾中心,例如在如上两地三中心方案中,我们可以增加一个异地备中心C。

  因为异地容灾切换的概率相对更小一些,为节省成本可以设置副本数量为1,当然我们也可以为了保证切换后的稳定性和安全性,将C副本数量增加为3;设置C的容灾模式为“最大性能”。

  此时,A在进行数据处理时,后台进程会同步发送处理日志到C中心,但是A的提交不会等待C的同步完成反馈,所以这是一个异步复制的模式,此模式下的RPO取决异地网络传输的距离长度。当A、B中心同时发生极端故障后,C能够作为最后的容灾手段(不考虑备份恢复等其他方案),保证核心业务最小损失。

  容灾无小事,核心类业务建设如果心存侥幸,必然为企业带来无法挽回的经济损失、声誉损失,往往也会断送决策者的职业生涯;QianBase是更安全、更可靠的分布式核心交易数据库,始终以守护用户核心业务系统安全、稳定为首要任务。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章