1 背景介绍
转转的新媒体业务重点在于利用主流短视频平台,例如抖音、快手、B站、小红书等,开展内容营销。通过创建和维护高质量内容账户,在这些平台上发布高质量内容,促进产品推广和品牌曝光。这包括精心策划与品牌相关的吸引人内容和线上活动,通过广泛或精准的信息推送,提高用户参与度和品牌知名度。有效利用粉丝经济,实现营销目标。然而,这些活动都依赖于各大平台账号和视频数据,因此大规模数据的收集、存储和处理成为我们面临的主要挑战。
2 现状与痛点
在实际业务中,转转的新媒体工作人员会运营自己的账号,这些账号会在抖音、快手、B站、小红书、微博等各大平台上发布视频。在用户授权之后,我们会收集这些视频的相关数据保存到我们的视频表中。在此过程中我们遇到了如下问题:
数据治理问题:数据收集的来源主要包括了用户录入、系统收集提供等。目前这些数据这些数据是直接应用在各个业务模块的。这导致了不同模块同一维度的数据由于数据源不同而存在差异。而且,由于缺少对数据的统一定义,数据维度的划分也不够清晰。
数据敏捷性问题:数据的收集依赖外部服务不定时推送,这对于当下内容爆发式传播的时代是难以接受的,业务迫切的需要拥有数据收集的主动权。
数据存储问题:随着业务的高速增长,系统触达的数据体量不断膨胀。在大规模数据的储存,账号、视频数据结合业务场景实时分析,大规模数据实时搜索等方面单一的数据存储介质已经不足以满足业务需求。
3 设计思路
基于上述痛点,我们决定开发一套数据服务中台系统来解决这些问题。经过多次沉淀与总结,最终对数据服务中台有了一个清晰的定位,即能够一站式地完成数据的统一定义、统一生产、统一消费。(数据服务是一种提供与数据相关的多种服务的过程,包括数据收集、存储、处理、分析和呈现,旨在帮助组织更好地理解和利用其数据资产,从而支持决策制定、创新和业务发展。)
统一定义 即:通过建立数据标准及指标体系,统一业务对数据的认知与理解,实现数据的标准管理。
统一生产 即:通过自动化、半自动化的方法,统一数据的加工生产过程,让数据的血缘关系更加清晰,提升数据生产的效率,避免数据重复建设。
统一消费 即:通过建立统一的数据底表,实现数据查询出口统一、保障业务通用的数据产品指标数据准确性与一致性。
4 设计与实现
4.1 数据模型建设
数据统一定义
4.2 多数据源治理
为了更好的兼容多数据源场景,通过以下三个关键点来确保数据的质量和可靠性。
首先,对源头数据进行了规范化处理,为每个数据源配备了相应的数据处理器,用于解析和处理各自的数据。这一步骤有助于统一数据的结构,使其更易于集成和分析。
其次,在数据流入系统之前引入了数据规范相关的校验措施,以杜绝脏数据的流入。这种前置校验能够有效地减少错误和异常数据对系统的影响,提高数据的质量和一致性。
最后,针对不同来源的数据制定了优先级设定策略,以最大程度地保证数据的权威性。通过设定优先级,能够确保对于关键数据源的处理和分析能够得到更高的优先级,从而更有效地支持业务决策和运营需求。这些设计措施共同构建了一个健壮的数据服务体系,旨在提供高质量、一致性和可信度的数据,为业务流程和决策提供可靠的支持。
4.3 实时数据处理
数据服务平台将数据收集的主导权交给用户,实时监听上游MQ消息,保证了数据的敏捷性。
4.4 数据存储方案
基于我们当前日均亿级的视频数据增量以及百亿级的视频总量,结合我们需要进行大规模数据存储、分析以及实时查询的需求,我们选择了Doris,鉴于它有如下几个方面的特性:
采用分布式架构,使其能够轻松应对大规模数据的存储和处理,确保系统在面对不断增长的数据量时仍能保持高效。
在查询性能方面表现出众,能够以秒级速度提供高性能的查询结果。
支持实时查询,能够满足对实时数据分析以及报表输出的需求。
高度兼容MySQL协议,这让开发人员更容易上手。
能够将Mysql作为外部表映射到Doris内进行关联查询。
相比与我们之前采用的Hbase方案,Doris能够支持复杂的关系查询并且能够以秒级速度输出结果,而Hbase并不支持复杂查询。其次,Doris由于高度兼容MySQL协议,在学习成本以及使用体验上相比于Hbase拥有更好的表现。
5 总结
本文介绍了转转数据服务平台的实现,现已成为新媒体业务体系中的核心组件,承担着数据治理的统一服务职责。未来我们会持续迭代系统的功能,以满足不断变化的业务需求和用户期望。