【IT168 评论】随着云计算、移动互联网、物联网等技术的快速发展,大数据已经“被”爆发,据IDG的《数字宇宙研究报告(Digital Universe)》表明:预计全球的数据资料存储量到2020年将达到40ZB,新兴市场的数据份额将提升至62%,物联网嵌入式系统占中国数据的总量也将由3%向10%逼近。全球的数据量正以每年58%的速度快速增长着……
面对大量庞杂的数据,如何提升数据分析的速度、精准度、可扩展性以及数据分析应用的普适度,成为了企业亟待解决的问题……
基于以上,在近日的数据分析沟通会上,英特尔和大数据巨头Cloudera明确表示,双方将会从硬件和软件方面全面加速数据分析应用,创造更大价值。
加速数据分析,不光要硬
“英特尔希望任何大数据用户都能够在英特尔平台上,实现最好的数据洞察力,以及快速且便捷的数据分析能力。” 英特尔公司软件与服务事业部副总裁、系统技术和优化部门大数据技术总监马子雅表示,基于此,将在三方面继续重点发力:硬件层面,大数据方面以及开源领域。
我们知道在硬件方面英特尔一直是业内翘楚,无论是在网络、存储还是运算上都做了很多创新, E5v4、E7v4、至强融核处理器的发布以及存储的3D XPoint的推出,就是最好的证明。
马子雅告诉我们,大数据基准测试的标准化是非常重要的一个方向,英特尔在这方面引领了业界的基准测试的标准化,制定了Big Bench、High Bench的测试标准,从而帮助业界更精准的了解大数据在微观以及端到端的性能。不仅如此,英特尔在大数据方面也对很多项目进行了优化,在分析应用方面,帮助客户更精准的进行分析预测,“以京东为例,现在可以10倍的细致地分析它的客流行为。如果你到京东的网页,它会给你更个人化、更有针对性的产品推介,所以它的业务效率比以前有很大的提升。”马子雅如是表示。
如果你以为英特尔仅仅是做硬件的,那你就大错特错了,因为英特尔在软件开源领域也颇有声色。
我们知道,硬件性能和软件优化对于大数据应用生态的发展有着至关重要的作用,在这个数字服务经济的时代,要想借助数据分析技术更快更好的完成大规模机器学习与深度学习,更好、更精准地进行指导商业决策,仍需进一步的软、硬件的创新与优化。马子雅坦言,大数据领域受到开源的影响比较大,所以英特尔也一直支持着开源社区的创新和发展,“在机器学习方面,我们在开源也做了很多工作,尤其是帮助客户扩大机器学习模块的可扩展性,达到10倍至70倍,并且可以缩短机器学习的周期达到8倍,我们把大部分源代码都贡献给了开源。” 据马子雅透露,英特尔今年在机器学习上的投资是去年的两倍之多,由此可见机器学习的魅力以及英特尔接下来会着重发力的方向。
为了让大数据用户能够在英特尔平台上拥有非常好的用户体验,英特尔与很多业界同行、客户有着很多的合作关系,业界领先的Hadoop数据管理软件与服务提供商Cloudera就是其中非常给力的一家,为帮助加速大数据和数据分析以及机器学习在英特尔平台上更好的部署,做着突出贡献。
Hadoop是炙手可热的明星
Hadoop之父、Cloudera公司首席架构师Doug Cutting表示“Apache Hadoop确实改变了我们使用数据的方式,能够让我们在数据中挖掘出更多价值, Hadoop技术诞生、发展至今已有十年之久。如今,在这个不断发展、快速发展的生态系统中,每一年开源社区中都会出现Spark、Impala那样能够提供更好功能的项目以替代原有的技术模块。但我们仍要坚持技术创新与开源分享,携手英特尔这样的合作伙伴一同推动、支持整个生态系统的发展,为机器学习、深度学习等数据分析应提供性能较好、最稳定安全的大数据应用环境,以满足金融、电信、制造、零售等不同行业用户的特定应用需求。”
Doug Cutting表示在编码,架构上与英特尔都有着密切的合作,在加密解密上也有了不小突破,目前几乎不再需要任何人工参与,再比如说基于3D XPoint推出的Kudu(新存储引擎),它能让超大数据进行快速存储,速度非常之快,无论是本地内存的提取还是远程网络的存数数据提取,都非常迅捷,Doug Cutting认为它的诞生是一个革命性的变化。
在提及Spark时,Doug Cutting说道“我们几乎所有应用英特尔硬件的人都可以应用到Spark内存,无论是进行管理还是存储,抑或是软硬件的结合,部署时都将非常方便。”
写作后面:
不管是从技术角度来看,还是商业的形式来讲,英特尔与Cloudera的合作无疑是强强联合、优势互补。他们的结合不仅意味着能够在软件和硬件层面上实现1+1>2的突破,也将有助于加速各种Apache Hadoop项目的创新。
英特尔长期以来在机器学习、高性能计算、FPGA,开源等领域都有着深入的研究。在谈及未来发展时,马子雅表示有两方面期盼,其一,希望可以在物联网领域有所突破,将物联网和终端数据分析进行跟多的结合;其二,将会继续在机器学习领域发力,如何提升机器学习模块的可扩展性以及如何更快的缩短机器学习的周期都将是未来的动力方向。