服务器 频道

SACC2013:初创IT技术架构及实践专场

  刁士涵:美团数据仓库的演进

美团数据仓库的演进

  2010年3月4日成立的团购网站。美团网:每天团购一次,为消费者发现最值得信赖的商家,让消费者享受超低折扣的优质服务。为商家找到最合适的消费者,给商家提供最大收益的互联网推广,为消费者能享受到最全面的团购资讯。美团网致力于做中国团购的领军企业,服务好消费者,服务好商家,这是美团的使命。

  美团是一家数据驱动公司,每天运行job20000+;每天新增数百GB原始数据;1000多个ETL流程;十几条业务线,2000多个业务指标;几十个专职数据分析与研究人员。数据仓库是一套完整的软件环境,包括数据抽取、存储、计算、查询、展示,以及管理这些过程的工具。

  美团团购客户端是美团网精心打造提供浏览、支付、消费凭借等一体化服务的的移动应用程序。美团团购客户端浏览顺畅、操作简单,并且针对移动终端做了一系列专享功能和体验。美团团购Android版是美团网精心打造的手机客户端,简单顺畅的操作体验让手机用户随时随地享受便捷的。

  演进过程:Pre数据仓库→引入ETL→构建完整的数据仓库→开放和协作

美团数据仓库的演进

  Pre数据仓库:

  工程师写一段PHP或者Shell统计脚本

  自己连接业务DB,提取数据

  在内存中完成统计计算

  将结果写入报表DB

  写一个PHP页面作为报表给需求方

  很多重复劳动和代码中间数据缺失,中间结果不能共享程序语言五花八门,方法各异很难管理清洗和转换没有统一方法,容易出错不同数据源的数据很难综合使用。

  引入ETL:使用独立DB,集中数据,复用中间结果;以ETL作为数据处理的核心,简化操作用数据表示逻辑;规范数据命名和组织方式;进入数据仓库时完成清洗;独立出日志收集系统。

  针对问题开发工具

  流程注册、管理、查看工具

  流程依赖关系解析,画出依赖关系图

  开发调度系统,根据关系图调度ETL执行

  抽象报表工具,屏蔽报表页面开发

  报表=SQL+配置

  建立数据字典,解释概念和指标计算过程

  美团的高速发

  展对数据的需求也高速发展,数据提取和分析需求增长,数据分析人员的增加,数据分析复杂度增加,数据团队疲于应付,大量重复性工作,迫切需要需求方自助获取数据并分析。

美团数据仓库的演进
专题地址:2013中国系统架构师大会

2
相关文章