服务器 频道

Cloudera和Spark的年度回顾

  【IT168 资讯】Cloudera 作为Apache Hadoop的最快速、最便捷、最安全的数据管理和分析平台,以及最新开源技术的提供者,于一个月前宣布增加了对Spark SQL和MLiB与Cloudera Enterprise 5.5 和 CDH 5.5集成的支持。在过去的一年中,两者已经在可用性和交互操作性上取得重大成绩。我们来回顾一下2015这一年Cloudera和Spark在用户生产环境中取得的进展。

  由于研发的相对简单性和灵活的数据处理,Spark在开源社区和客户用例中的受欢迎程度迅速提升。它是Apache软件基金会中最活跃的项目,拥有来自于超过200家公司的800多名开发者。Cloudera团队的Spark代码提交者专注于提升Spark的企业级能力,在Hadoop的框架内集成Spark以满足客户需求和进一步的生产适用。

  Hadoop的创始人,Cloudera的首席架构师Doug Cutting说:“开发者对Spark的拥抱以及Cloudera在过去一年中在推进主流应用方面所作出的努力,是非凡的。我们已经有了大量的客户用Hadoop运作Spark,我们已经在深化Spark的商业能力方面取得巨大进步,使Hadoop客户在不同行业和用例中进行部署。有了Spark SQL和MLib作为Cloudera平台的补充,以及“统一平台”这一清晰的路线图,Spark应用将会随着批处理、流文件以及机器学习等用例而快速增长”。

  在过去的一年,Cloudera针对多种数据处理的用例不断在完善Spark,包括端对端物联网应用、简化批处理以及原生机器学习等。由于越来越多的用户想要利用IoT和实时流数据,他们需要一个企业级的流式处理引擎来支持他们的应用程序。

  为了应对这个问题,Cloudera引领了Spark Streaming弹性方面的研发,确保数据的零丢失,并将其提升至生产标准。这一关键的改进,以及平台内与Apache Kafka的集成,已经使Cloudera的客户能够在一个统一的平台上建立完全的IoT应用程序。这对于Spark Streaming的应用有深远的影响。

  为了推动更简化、更强大的批处理,并帮助Spark巩固其在Hadoop标准执行引擎的地位,Cloudera还发布了Apche Hive-on-Spark的测试版。Hive作为ETL开发的非常好的工具,其与Spark处理引擎的集成,标志着支持下一代数据集成,是Spark作为MapReduce后继者的重要里程碑。

  继最新Cloudera 5.5的发布,Cloudera已经添加了Spark MLib - 拓宽了Spark的易用性,和Hadoop框架下的机器学习应用程序的性能表现;此外,Cloudera添加了Spark SQL – 允许将SQL无缝嵌入Spark应用程序,为开发者和数据科学家扩展了使用Spark的能力。

  这一发布也包括了对Spark SQL的查询引擎的改进(Project Tungsten的一部分),在效率和速度上都取得了显著提升。为了确保进一步的功能性,与Hive及其元存储的集成保证了Hadoop平台上Spark SQL数据模式的完全互操作性 – 无论是结合Hive的ETL研发,还是结合Spark SQL的应用研发,或者是使用Impala的交互式商业智能,确保正确的用户通过正确的工具都可以在其工作上得到无缝体验。

  用户的广泛应用

  把Spark包含在Hadoop中,Cloudera对此的支持比其他厂商更有经验,也拥有更多的客户在Hadoop上运行Spark,这些客户包括当今最大的多租户Spark集群,包括超过800节点的部署。

  已经有超过170个客户在各种行业中使用Spark,包括金融、医疗卫生、零售和保险。Cloudera帮助客户使用了大量的新用例,包括:

  Cox Automotive:为汽车经销商和买家提供产品和服务的领先供应商,使用Spark流数据使其对广告宣传的洞察分析从每小时改进为实时分析。

  PRGX:世界领先的应付账款周转审计服务供应商,彰显了Spark灵活的高性能数据处理,带来了相比于传统系统9-10倍的性能提升。

  某在线零售商:使用Spark减少了30%的数据处理时间,并且利用实时趋势来进行更多的互动

  Allstate:美国最大的保险公司之一,使用Cloudera和Apache Spark来处理超过80年的数据,建立高精度定价模型。

  RelayHealth:医疗健康技术解决方案的提供者和McKesson的子公司,为医疗提供者接收支付、改进现金流,建立可预测的模型。该公司处理200,000名医生、2,000家医院和1,900名健康计划用户的医疗支付交易。

  Barclays:跨国银行和金融服务公司,建立了一个洞察引擎以安全地分析之前多种交易数据,将相关洞察以简洁的可摘要方式交付给Barclays的客户。

  此外,相关Spark的Cloudera 加速计划已经推动了数十个强劲的Spark应用,以及与领先第三方工具的集成,进一步扩展了用户对Spark的使用能力。关键合作伙伴包括Datameer, Informatica, Oracle, Paxata, Pentaho, Platfora, StreamSets, Syncsort, 和Talend。

1
相关文章