服务器 频道

货拉拉埋点数据保障体系建设实践

  一、背景

  埋点数据作为货拉拉公司的核心数据资产,应用涉及用户增长、产品优化、智能运营及科学决策,是各业务侧提出优化解决方案的重要基础数据。各大互联网公司都十分重视埋点数据的收集、治理和数据洞察应用,而因为埋点过程整体链路环节较长,囊括的角色也相对较多,下面我们先总结一下不同角色在不同环节中对埋点质量提出了哪些问题:

  二、整体行动

  1、确定目标

  • 建立埋点质量保障体系,保证埋点数据的生产质量

  • 系统化埋点实施流程,提升埋点实施的协同效率

  2、行业调研

  通过调研,我们发现埋点数据的质量问题在每一家公司都是绕不过去的一个点,对于埋点数据保障的方案也各有千秋,以某平台的为例,主要分为三步走,第一步是解源头的核心步骤:优化埋点需求管理,统一将埋点录入平台来管理,在此基础上,还可以进行自动化等提效改造。其次是对流程进行优化,细化任务,联合产品、开发、数据、项目管理团队对整个项目过程进行了细化,明确各角色职责和各阶段任务,各司其职,高效协作,版本质量更可控。最后是提升业务深入度,埋点来源于业务,只有真正理解业务,理解埋点对应的业务数据指标,才能理解业务的数据价值。

  3、制定详细方案

  针对这样的一个长链路的保障,我们主要围绕“埋点管理”(定义管理和流程控制)、“埋点线下保障”、“埋点线上保障”这三个环节展开。改造流程、优化策略,打造相应的工具平台来固化流程和辅助测试,保障埋点开发正确性的同时,也提高协作效率。在实施的过程中,我们也充分的利用了现有的各种能力,寻求各方合作(避免重复造轮子),快速的构建起一套能够跑得通的实操方案。围绕保障质量与提升协同效率的目标,我们开启了埋点质量保障的 6 步改造之路:

  3.1、需求流程迭代

  3.2、埋点数据监控

  埋点事件量极大,对每个埋点事件都做到保障的成本极大,因此我们配合产品、技术、分析师梳理出公司级的高价值埋点,这些埋点与用户下单流程,司机抢单与履约流程紧密相关,保证这些高价值埋点在每个版本都进行回归测试。版本回归测试也有自身的瓶颈,只能在每个版本发布前保证高价值埋点的准确性,却无法在应用运行期间发现突发问题,因此我们通过数仓技术建立数据监控规则及预警机制,监控在时间周期内数据波动的趋势,建立埋点数据质量监控规则;

  增加报警机器人看板,值班数据产品更直观发现问题 如下图黄线所示,在今年3月22日早上,值班数据产品发现用户端订单详情页曝光事件order_xx_expo的总次数有较明显下降趋势,经排查问题是由微信小程序端所引起,于是产品及时联系研发修复并于当日通知到业务侧,避免造成更大的数据事故影响。

  3.3、核心埋点重点保障

  3.4、质量评估&问题治理

  对存量埋点治理和清理:

  • 我们针对不同的埋点,需要确定对应的评估维度,调整维度的权重来建立适配不同埋点事件的的评估模型,埋点质量便可以由具象的分数来呈现,我们也就有的放矢

  • 存量埋点血缘和价值梳理、埋点分级/无用/可下线埋点甄别

  • 分析用户/司机搬家/下游埋点任务依赖,提炼业务应用指标,为建设主题宽表提供场景

  • 在埋点专项治理v1.0中,数仓通过使用大禹的监控配置功能完成高价值埋点的监控配置,产出完整的质量报告

  3.5、日志实时监控&链路稳定性保障

  • 与神策共同建立链路监控SOP,配合升级神策组件

  • 未来将着力推动实现移动端实时上报日志监控预警机制及在自研埋点SDK中增加开发自动验证功能猎数

  3.6、埋点工具建设

  我们通过联合移动端和QA,构建自研埋点管理平台+自动化埋点验证平台:

  自研埋点管理平台:

  • 我们将埋点研发流程固化在此平台上。从产品经理录入埋点详细需求–>到研发根据定义开发埋点–>提测通知“QA”介入验收–>数据产品对埋点需求版本修改为“已上线”,整个流程都在埋点平台上完成,保证埋点的全生命周期可查询。

  • 通过平台,我们将埋点的元信息线上化,统一管理,告别口口相传,避免多个 excel、wiki 到处找埋点需求/定义的尴尬局面。并且通过标签树的概念,将埋点事件一一进行页面/功能分类,提高了用户查询具体事件的效率。同时将埋点事件明细回传到自动化测试平台,根据实际上报的数据明细自动比对元事件模块下维护的信息内容,在每次测试任务中都会自动提醒哪些事件不符合规范,极大的提高了测试效率,加上后期的人工校验,也会降低漏测的概率。

  • 不单是对事件的管理,我们同时也提供多维度、多指标的交叉查询能力以及应用详情概览,提供关键行为指标,协助业务、技术快速查询用户数据。目前功能还在孵化中,未来将能够全面支持各团队的日常数据分析需求,驱动业务决策

  埋点测试工具:

  • 测试工程师将埋点测试流程线上化,按版本对新埋点需求进行全覆盖,从而能够追溯埋点测试的全流程。

  • 消除埋点上报到神策链路的依赖,实时获取埋点上报事件,零延迟。

  • 埋点校验自动化,每个埋点事件验证从小时级提升到分钟级。

  • 结合UI自动化技术,实现高价值埋点的自动化脚本覆盖,每个版本定期对高价值埋点进行回归测试。

  三、总结和展望

  本文主要从质量挑战、方案设计等角度出发进行了阐述,旨在为读者提供埋点数据质量保障的基本思路,而对于埋点管理工具建设过程中的具体细节因篇幅原因并未做深入探讨。目前货拉拉自研埋点平台仍处于内部孵化阶段,产品正逐渐被技术研发、产品运营、业务管理等部门熟悉与使用,可预见的功能将覆盖绝大部分埋点数据应用场景,在企业提效增速的大背景下这星星之火将会发挥更大的作用和价值。

0
相关文章