伴随着云计算和数字化浪潮的推进,越来越多行业数据实时性的权重正在被加速提升,对企业而言,如果想要保证业务的持续发展,其底层数据库必须要能满足数据的实时性和高并发要求。
除此之外,在降本增效的大潮下,“高性价比”也成为企业选择一款数仓的重要因素。
那么,企业应该如何构建自己的实时数仓体系,并兼具性能、成本、运维等全部需求?
让我们把视线聚焦到数字广告行业,这家企业仅仅用了11天,在数据处理方面,就实现了效率提升40%、成本降低30%。这就是数字化广告平台——布鲁肯。
01 业务背景
/ 实时数仓是广告业数据引擎的核心动力
作为一家数字化广告平台,布鲁肯覆盖全渠道自助式变现解决方案,为移动开发者提供增长和变现一体化的商业解决方案。
一方面,布鲁肯帮助媒体端(如电商平台、社媒网站等)获得更大的流量和广告收益,另一方面帮助广告主提供足够精准的广告投放策略,以提高产品曝光。
以APP开屏广告展示为例,开屏广告展现在人们眼中的时间仅需200ms,甚至是100ms。
在如此短时间内,上演的却是一个完整周期的广告模型——从打开时的接受用户数据,到基于用户数据生成对应的广告策略,最终再反馈到产品端进行前端展示。
而为这个复杂精密的实时数字广告模型提供核心动力的,是布鲁肯的底层实时数据仓库,在特定节日大促期间如618、双11等,底层的数据流转则更是会被以十倍、乃至百倍的要求提速。
02 业务痛点
/ 无法平衡的效率与成本
布鲁肯在全球拥有600多家DSP、代理平台和广告主伙伴,底层数据系统一天的请求次数高达 150亿,数据流量超过2GB/s,广告日均点击20M+,多样化场景、海量数据高并发的需求场景每时每刻都在布鲁肯上演。
数据体量大,场景多样,导致整体数据架构复杂的,之前布鲁肯基于开源 ClickHouse自建系统,其本身固有的列式存储模式,伴着业务发展,对应的硬件成本更在飞速飙升。
另外, ClickHouse本身虽然具备强大的分析和线性拓展能力,但在复杂查询等层面不擅长。
布鲁肯在构建实时数仓过程中主要面临问题:
● 海量数据下的高并发:采集数据量大 ,数据流量超过2GB/s,并发处理要求高。
● 系统稳定性要求:业务包含广告营销投流分析等,对于数据质量与稳定性要求高。
● 弹性扩容和降本增效:资源需求随营销活动动态变化,比如618、双11等大促期间,数据量级骤增,性能要求更高,需要能根据实际业务需求,灵活调整资源配置。
直观反映到企业经营层面:底层硬件以及数据库运维侧不断在投入更多的企业运营成本,但前端业务依然会出现“卡顿、用户请求反馈慢、投放策略优化不及时”等问题。
03 优化方案
/ 从ClickHouse到ByteHouse实时数仓解决方案
1. 选型历程:
关于数据库的选型工作在布鲁肯内部持续开展,调研产品包括Flink等国内诸多主流数据库产品,在相关业务场景的性能表现以及使用成本,未能满足要求。
从最开始选择ByteHouse到使用其进行生产,布鲁肯仅仅用了11天。引入ByteHouse,对布鲁肯企业业务影响极小且成本极低。
2. 产品组合:
云原生数据仓库 ByteHouse (企业版)+Kafka
● Kafka集群:用于流式数据的传输和处理,确保大规模数据在不同系统之间的高效传输和实时处理。
● ByteHouse集群: 作为核心的数据存储与处理平台,支持大规模数据的存储、查询和分析,支持高效处理实时数据和批量数据,提供快速的查询响应和复杂的分析能力。
3. 方案介绍:
基于ByteHouse+Kafka搭建一套高效、可靠、可扩展的实时数仓链路,解决数据整合、实时处理、广告效果评估等问题,提升广告业务的整体运营效率,更好地为下游合作伙伴广告投放决策提供支持。
● 数据链路设计:来源于广告终端的数据,进入Kafka集群,再经过ByteHouse内表和物化视图加工,同步到数据应用中,最终辅助广告主、广告平台等进行投放效果的评估、费用结算等。
● 生态兼容性:ByteHouse与Kafka具备很强适配性,为了更好地适配Kafka,ByteHouse内置增强型 Kafka引擎,为数据写入提供高性能保障。
● 扩展性:ByteHouse+Kafka均为分布式架构优势,让布鲁肯系统具备充分的灵活性,可以在分钟级别下完成全链路扩容,以便应对广告场景中常见的大促等流量峰高。
● 压缩成本:ByteHouse具备冷存储的能力,将热数据自动转存到冷存储的方式引入布鲁肯,有效缓解业务存储空间持续增长的问题。
4. 应用场景
以今年618大促为例。数字广告行业与电商等行业具备同样流量峰值点,底层服务器和数据库需要紧急扩容和定向监测运维来应对流量高峰。
ByteHouse与布鲁肯提前2周联合制定预案,包括如何扩容、紧急处理等。在618大促期间,运维人员只需要点击扩容按键等简单操作,就能实现分钟级扩容。如果基于之前的开源产品,这类运维工作投入成本和工作量会是现在的几十乃至上百倍。
04 最终成效
/ 1个人力,降低企业30%成本
1. 扩展业务边界
“以618为例,我们之前只上了程序化竞价广告,像今年,我们包括其他的一些网站、社媒,以及品牌PDB投放我们也都可以支持,相当于业务宽度更广了。”——布鲁肯市场负责人张亚灵
2. 极致降本增效
“基本全线切到火山引擎之后,我们的成本大概降低了30%,在效率侧,我们评估提高了30%- 40% 左右,这两个一叠加,其实我觉得效率整体提高一半是有的。”——布鲁肯市场负责人张亚灵
“其实在整个过程中,我们几乎没有提供过重的服务,除了部分参数和指标的调整确认,也就是一个研发接近20%、30%的人力投入,对于布鲁肯来说,只投入1个人力就完成了接入和运维。”——ByteHouse团队相关负责人
现阶段,布鲁肯的同款聚焦于降本增效的实时数仓解决方案已经上线。