对于高影响力数据治理团队来说,最好的比喻就是一个运转良好的厨房。他们帮助保持厨房清洁,确保所有刀具都锋利,所有东西都摆放在正确的位置。这让厨师工作得更快,错误更少,并防止食品卫生评级不佳。
但数据治理团队正在走一条微妙的路。如果他们不小心,这些举措可能看起来像是额外的开销,引入的政策和流程对业务影响不大。
在本文中,我们将探讨高影响力数据治理团队应该关注的领域以及他们可以采取的具体步骤。
虽然对于数据治理团队的工作方式没有一刀切的解决方案,但这些关键主题仍然是大多数前列公司的职位要求。
使数据在整个组织内可用
密切关注数据质量,帮助系统地改善最重要的事项
通过所有权模式确保责任明确
管理风险、隐私和法规遵从性
使数据在整个组织内可用
问题很少是数据不足。问题在于现有数据未被使用或人们无法找到它。随着组织的发展,创建的数据量显著增加。随着时间的推移,这会带来多种后果。
对同一指标的多种定义可能会导致人们对数据失去信任或得出不同的结论。
存在多个仪表板或表格,解决相同的问题并导致重复工作和不太可用的数据堆栈。
仪表板会随着时间的推移而“腐烂”,而利益相关者却并未意识到。
数据堆栈爆炸式增长,使得发现变得困难并增加了不必要的数据平台成本。
这个过程缓慢发生,然后突然发生。
各个团队为解决这个问题而做出的零星努力很少能奏效。数据治理团队具有独特的优势,可以帮助实现标准化并推动这一进程。
1、记录关键数据资产
数据治理团队应设定并执行对数据文档的期望,以免它成为事后的想法。例如:
强制在数据目录中完成文档,以在团队之间创建一致的方法。
设定期望,即应该对所有“黄金”标准表进行记录,但“青铜”和“白银”是可选的。
给出有据可查的表格或字段的清晰示例(例如,写为“由SalesForce标识符定义的客户的用户ID”,而不是“客户的用户ID”)。
2、确保关键指标定义一致
在达到一定规模后,您不可避免地会遇到对同一指标的不同定义。虽然基础数据可能没有错,但这会导致决策速度变慢,并导致开会时花费大量时间讨论指标是否正确,而不是讨论如何解决。
数据治理团队应制定明确的指导方针。其中一条指导方针可能是:“关键指标应在dbt中定义,而不是在BI工具中的计算字段中定义,以提高可见性并进行版本控制。”另一条指导方针可能是,关键指标应包括RAG(红色、琥珀色、绿色)阈值及其指标定义,以将它们保存在一个地方。这还有一个额外的好处,就是允许您在阈值被突破时向相关利益相关者设置自动警报。
数据治理团队应查找同一指标的多种定义,并鼓励团队在发现多种定义时合并指标。最好的方法是定期评估关键仪表板、Slack频道和其他使用KPI的地方。
3、确保数据可发现
如果您的数据消费者(无论是数据团队内部还是外部)都找不到他们的数据,那么数据可能就不存在了。如果找到您需要的数据就像大海捞针,那么解决方案的一部分可能是更新您的工具集并引入数据目录以使所有数据资产都可以被发现。但是,如果您没有先掌握基础知识,那么任何工具都无济于事。
数据治理团队应执行简单但标准化的约定。例如,数据资产的明确命名约定,如仪表板的“⭐️产品A/B测试跟踪[商业银行]”,以明确仪表板至关重要(⭐️)以及它属于哪些领域(商业银行)。
我们建议将其尽可能靠近数据所在位置。如果您使用Looker之类的BI工具,大多数数据消费者都会在这里使用数据。创建一个结构良好的“主页”,您可以在其中深入了解每个域,并提供指向最重要仪表板的链接,这是组织仪表板并确保每个人都能找到它们的好方法。
4、增强仪表板的可用性
无论你喜欢与否,无论你创建的数据模型和管道多么花哨,利益相关者使用仪表板数据的体验都会严重影响他们对数据和团队产出的看法。你应该像对待产品一样对待仪表板,强化其外观、感觉、一致性和性能。
5、删除不必要的数据资产
数据资产蔓延是数据随着时间的推移变得无法使用的主要原因之一。清理数据堆栈最有效的举措是摆脱不需要的数据资产。虽然没有对不需要的数据资产的明确定义,但你可以留意以下迹象
使用率较低的仪表板
与其他仪表板有很大重叠的仪表板
没有下游依赖的数据模型
数据模型中未在下游使用的列
清理臃肿的数据堆栈并非易事,如果可能的话,您应该持续投入精力清理未使用的表格、数据模型、列和仪表板。然而,许多正在扩张的公司发现自己处于劣势,只有在拥有数千个数据模型和仪表板后才会解决这个问题。
6、定义哪些数据重要
随着规模的扩大,无论数据治理团队的意图有多好,都无法在组织内的所有数据上强制实施高可用性。数据治理团队需要明确定义数据关键性及其影响。例如,使用“铜、银、金”模型,并决定只有银和金才应符合文档标准。
7、密切关注数据质量,帮助系统地改善最重要的事项
数据质量一直被列为数据团队面临的最大挑战。dbt最近向数千名数据从业者询问了他们面临的最大挑战,结果显示,数据质量差以57%的得票率位居榜首。
这是有充分理由的。数据质量差会导致决策错误、系统故障,并削弱对数据的信任。
幸运的是,大多数数据从业者已经习惯了将经过充分测试的数据作为开发数据资产的一部分。这对于单个资产来说很有效,但很大程度上取决于个人的解释。我们建议数据治理团队系统地对关键维度(例如所有者域和关键性)的数据质量进行基准测试。
数据质量报告
报告数据质量的原因有很多,但要求每个团队定义自己的指标肯定会造成混乱。持续测量和传达数据质量可以带来多种业务成果:
通过突出问题区域,让分布式团队掌握数据质量
在利益相关者多次询问数据质量是否低下后,他们表现出信心
向监管机构展示你对数据质量的把控
与工程师共享您已承诺遵守SLA的数据产品的系统正常运行时间
正常运行时间——每次运行时,现有控制措施成功通过的百分比是多少
覆盖率——有多少比例的数据资产已实施所需的控制措施
将质量指标分组到语义相似的领域,可以让您以更贴近业务用例的方式讨论数据质量。(1)及时性–数据是否根据与业务商定的SLA保持最新和最新状态,(2)正确性–所有数据是否可用,(3)完整性–数据在语义上是否正确,(4)一致性–可用数据是否在各个系统中一致。我们还建议明确定义哪些指标是“差”、“还行”或“好”。在我们的示例中,任何低于50%的分数都被标记为“差”,这意味着需要采取行动。
这种洞察力水平可以让你开始询问有关数据质量的问题,例如
虽然我们对空值检查有很好的覆盖,但我们应该调查哪些检查失败了,是否可以修复,以及是否应该删除它们。
为什么我们的断言测试的正常运行时间显著下降?
鉴于覆盖率低,我们在唯一性测试上的高正常运行时间是否会给我们一种虚假的安全感?
设定数据质量期望指南
在大多数情况下,您需要根据数据的使用方式指定期望。我们建议您这样做,因为您可能不想让所有资产都遵守相同的标准。同样,由于您可能只强制执行“黄金”资产的文档记录,数据治理团队应该扮演为数据测试的期望制定指导方针的角色。记住哪些数据对业务至关重要、哪些数据被暴露(例如,在仪表板中)以及哪些资产应该有SLA(例如,如果数据没有按时到达,就会产生下游影响)可以帮助您评估需要哪些检查,从而衡量哪些是重要的。
8、通过所有权模式确保责任明确
随着数据堆栈变得越来越复杂,一个人不可能再记住所有事情,而且往往发现问题的人并不是解决问题的合适人选。同时,上游和下游依赖关系的数量激增,这使得找到合适的上游所有者或通知受影响的利益相关者变得非常困难。
你不需要询问许多数据团队就能了解梦想状态:上游生产者拥有并管理其数据质量,相关数据团队承担责任,利益相关者发现问题的日子已经结束。
良好的所有权说起来容易做起来难,而且失败的所有权举措也屡见不鲜。
数据治理团队最终负责构建具有明确角色和职责的一致所有权模型。将其分为几个步骤可以更清楚地表明您的差距:(1)整合元数据,(2)使用相关测试检测问题,(3)分配所有权,(4)以可采取行动的方式通知相关人员问题。
所有权既是一种文化挑战,也是一种技术挑战,要成功实现所有权计划,需要同时关注两者。
为所有者设定期望—期望应与数据资产的重要性挂钩。例如,什么会导致严重问题,以及谁来决定。
定义所有权—您可以在很多地方定义所有权,从dbtyml文件到数据目录、Confluence页面和电子表格。明确定义所有权的期望,并帮助每个人以相同的方式进行定义。
用正确的背景通知正确的人—我们建议您全面考虑数据所有权—从上游团队拥有的数据源到最终用户拥有的仪表板。为简单起见,我们将建议分为以下几组:(1)数据团队、(2)上游团队和(3)业务利益相关者。
9、管理风险、隐私和法规遵从性
在公司生命周期的某些阶段,通常是在引入数据治理团队时,需要管理重大风险。这可能涉及金融科技的监管数据、即将上市的IPO的财务数据准确性,或者公司需要负责任地处理PII数据的一般意识。
作为数据治理专业人员,您的工作很明确:确保公司履行其义务并最大限度地降低风险,同时不减慢数据团队的速度。
你可以通过以下几种方式来实现
PII相关数据–在大多数公司中,某些数据(例如用户电子邮件)不应随时可供所有人查询。强制将数据标记为PII,并自动为这些数据设置护栏。例如,创建一个包含原始数据的单独数据仓库,其中仅按用例授予访问权限,并在七天后过期。
用户数据删除请求–如果您使用用户数据,您不可避免地会遇到用户数据删除请求。您越早考虑这些,在收到第一个请求时删除所有用户数据就越容易。在发生这种情况之前拥有正确的工具(例如列级沿袭)将大大减少所需的时间。
定义事件管理流程和SLA–无论您的所有权模型或数据质量检查有多好,数据问题都会发生。定义明确的事件管理流程具有多种好处:它可以帮助每个人对重要事项达成共识,使对问题知之甚少或一无所知的人更容易参与进来,并且您可以更轻松地回顾过去的事件并报告严重违规行为。
10、数据治理专业人员需要掌握的关键技能
使数据可用、确保质量、建立所有权以及平衡PII和风险与速度——这对于数据治理团队来说并非易事!以下是数据治理专业人员取得成功所需的一些基本技能。
技术理解–虽然您可能不会亲自为代码库做出贡献或编写dbt模型,但对数据团队使用的工具及其局限性有高层次的了解是有益的。这可以帮助您更好地了解其他团队的痛点以及数据治理流程如何融入现有工作流程的利弊。
平衡优先事项—你可能觉得每件事都很重要。不过,你的工作是密切关注整个公司的情况,从而优先考虑某些计划。例如,在即将进行的IPO或监管违规事件发生前,将治理计划完全集中在财务数据上,而较少关注营销和产品领域可能是明智之举。
运行供应商选择流程–您可能需要引入至少几种工具来帮助您解决上述问题。您应该密切关注数据目录和数据可观察性工具等类别中的工具。如果您决定投资某个工具,则需要由您来运行一个结构良好的流程,规划概念验证,并确保数据团队中的每个人都能感受到您的声音。这可能是您的公司第一次购买此类别的工具,因此,在您承诺之前,获取多个演示并与现有客户进行参考检查可能是测试该工具是否适合您的好方法。
组织认同——没有人会为了好玩而关心数据质量、文档或所有权。作为数据治理团队,您应该向大家传达文档、数据质量和所有权为何如此重要的理念。定期与领导团队分享见解是确保他们参与其中并理解这些投资为何值得的好方法。
小结
数据治理团队的作用是保持厨房清洁,确保所有刀具锋利,并确保一切东西都摆放在适当的位置。这不是一件容易的事,它需要平衡优先事项、让利益相关者参与进来,并运行供应商选择流程。