Cloudera和Spark的年度回顾-服务器专区

Cloudera和Spark的年度回顾

作者：刘策编辑：刘策 2016-01-20 14:33 IT168网站原创

　　【IT168 资讯】Cloudera 作为Apache Hadoop的最快速、最便捷、最安全的数据管理和分析平台，以及最新开源技术的提供者，于一个月前宣布增加了对Spark SQL和MLiB与Cloudera Enterprise 5.5 和 CDH 5.5集成的支持。在过去的一年中，两者已经在可用性和交互操作性上取得重大成绩。我们来回顾一下2015这一年Cloudera和Spark在用户生产环境中取得的进展。

　　由于研发的相对简单性和灵活的数据处理，Spark在开源社区和客户用例中的受欢迎程度迅速提升。它是Apache软件基金会中最活跃的项目，拥有来自于超过200家公司的800多名开发者。Cloudera团队的Spark代码提交者专注于提升Spark的企业级能力，在Hadoop的框架内集成Spark以满足客户需求和进一步的生产适用。

　　Hadoop的创始人，Cloudera的首席架构师Doug Cutting说：“开发者对Spark的拥抱以及Cloudera在过去一年中在推进主流应用方面所作出的努力，是非凡的。我们已经有了大量的客户用Hadoop运作Spark，我们已经在深化Spark的商业能力方面取得巨大进步，使Hadoop客户在不同行业和用例中进行部署。有了Spark SQL和MLib作为Cloudera平台的补充，以及“统一平台”这一清晰的路线图，Spark应用将会随着批处理、流文件以及机器学习等用例而快速增长”。

　　在过去的一年，Cloudera针对多种数据处理的用例不断在完善Spark，包括端对端物联网应用、简化批处理以及原生机器学习等。由于越来越多的用户想要利用IoT和实时流数据，他们需要一个企业级的流式处理引擎来支持他们的应用程序。

　　为了应对这个问题，Cloudera引领了Spark Streaming弹性方面的研发，确保数据的零丢失，并将其提升至生产标准。这一关键的改进，以及平台内与Apache Kafka的集成，已经使Cloudera的客户能够在一个统一的平台上建立完全的IoT应用程序。这对于Spark Streaming的应用有深远的影响。

　　为了推动更简化、更强大的批处理，并帮助Spark巩固其在Hadoop标准执行引擎的地位，Cloudera还发布了Apche Hive-on-Spark的测试版。Hive作为ETL开发的非常好的工具，其与Spark处理引擎的集成，标志着支持下一代数据集成，是Spark作为MapReduce后继者的重要里程碑。

　　继最新Cloudera 5.5的发布，Cloudera已经添加了Spark MLib - 拓宽了Spark的易用性，和Hadoop框架下的机器学习应用程序的性能表现;此外，Cloudera添加了Spark SQL – 允许将SQL无缝嵌入Spark应用程序，为开发者和数据科学家扩展了使用Spark的能力。

　　这一发布也包括了对Spark SQL的查询引擎的改进(Project Tungsten的一部分)，在效率和速度上都取得了显著提升。为了确保进一步的功能性，与Hive及其元存储的集成保证了Hadoop平台上Spark SQL数据模式的完全互操作性 – 无论是结合Hive的ETL研发，还是结合Spark SQL的应用研发，或者是使用Impala的交互式商业智能，确保正确的用户通过正确的工具都可以在其工作上得到无缝体验。

　　用户的广泛应用

　　把Spark包含在Hadoop中，Cloudera对此的支持比其他厂商更有经验，也拥有更多的客户在Hadoop上运行Spark，这些客户包括当今最大的多租户Spark集群，包括超过800节点的部署。

　　已经有超过170个客户在各种行业中使用Spark，包括金融、医疗卫生、零售和保险。Cloudera帮助客户使用了大量的新用例，包括：

　　Cox Automotive：为汽车经销商和买家提供产品和服务的领先供应商，使用Spark流数据使其对广告宣传的洞察分析从每小时改进为实时分析。

　　PRGX：世界领先的应付账款周转审计服务供应商，彰显了Spark灵活的高性能数据处理，带来了相比于传统系统9-10倍的性能提升。

　　某在线零售商：使用Spark减少了30%的数据处理时间，并且利用实时趋势来进行更多的互动

　　Allstate：美国最大的保险公司之一，使用Cloudera和Apache Spark来处理超过80年的数据，建立高精度定价模型。

　　RelayHealth：医疗健康技术解决方案的提供者和McKesson的子公司，为医疗提供者接收支付、改进现金流，建立可预测的模型。该公司处理200,000名医生、2,000家医院和1,900名健康计划用户的医疗支付交易。

　　Barclays：跨国银行和金融服务公司，建立了一个洞察引擎以安全地分析之前多种交易数据，将相关洞察以简洁的可摘要方式交付给Barclays的客户。

　　此外，相关Spark的Cloudera 加速计划已经推动了数十个强劲的Spark应用，以及与领先第三方工具的集成，进一步扩展了用户对Spark的使用能力。关键合作伙伴包括Datameer, Informatica, Oracle, Paxata, Pentaho, Platfora, StreamSets, Syncsort, 和Talend。

关注我们