服务器 频道

化解“数据之重” 详解Hadoop发行版

        【IT168 技术】在当前时兴的“大数据”解决方案中,由Apache基金会开发的Hadoop绝对是最闪亮和最为人所推崇的。毕竟,谷歌、雅虎、亚马逊、Facebook,以及国内的淘宝、百度等这一连串互联网巨头都采用了Hadoop技术来处理海量数据。

  那么,什么是Hadoop? 简单地说,Hadoop是一个分布式系统基础架构,主要由HDFS、MapReduce和Hbase组成,让用户可以在不了解分布式底层细节的情况下开发分布式程序。

  Hadoop尽管千好万好,但它和其他开源技术一样,有着开源软件容易有的弊端。例如,开源Hadoop缺乏管理工具,为其部署与管理带来诸多不便;其次,它没有优化程序,企业用户只能请专业Hadoop专家在运行环境中手写输入代码;此外,作为开源软件,它自然谈不上有什么支持服务,企业用户在使用过程中出了任何问题,都只能耐心等待开源论坛里热心人的帮助。显然,如果一个企业用户手下没有强大的技术团队,自己部署开源Hadoop将很可能是件费时费力,效果还难以预期的事。这也是为什么英特尔等厂商要推出Hadoop特别发行版的理由所在。

  “所谓Hadoop发行版,意味着这是一个可靠、可管理的、稳定的Hadoop版本。因为,我们在开源Hadoop之上开发了管理工具和监控工具,可简化Hadoop集群的部署与管理,同时对开源Hadoop进行了大量的优化,使其适用于企业用户来解决大数据问题。”来自英特尔的大数据解决方案经理王晓栋说。

  具体来说,与开源Hadoop和其他厂商推出的Hadoop发行版相比,它主要有以下重要改进:

  1. 高可靠性增强,包括HDFS的目录服务器(NameNode)的高可用性和Map/Reduce的任务调度器(JobTracker)的高可用性。

  2. 增强了HDFS扩展性。改进了HDFS数据的分布和读取算法,移除了读海量文件时的扩展性瓶颈,使得集群的整体性能不再受限于某些较慢的服务器节点。改进后集群的I/O吞吐量能够随节点数量增加而线性扩展。

  3. 根据HDFS数据的热点程度,在硬盘容量允许的情况下,动态调整数据复制策略,可提高热点数据的并发访问能力,从而提高HDFS系统吞吐量。

  4. 改进Map/Reduce的调度算法。支持公平调度原则,兼顾短任务和长任务的调度,并能很好处理短的Map任务的并行调度,避免开源Hadoop版本出现的并行任务退化成串行任务。

  5. 增加对Hadoop集群的监控管理。

  6. 实现“配置的版本化”。实际工作中,有些计算任务重I/O,有些重计算,那么就需要根据不同的计算任务对集群中的服务器进行调整。而“配置的版本化”支持在管理工具上设置每个机器的配置情况,进行版本化的调整。配置完成之后,就能保证在完成一个计算任务之后,快速切换到下一个任务,从而使整个集群动态地适合不同计算任务的需要。

  7. 支持在多个异地数据中心上创建统一的Hbase大表,提高扩展性和可用性。

  8. 支持Hbase大表跨数据中心远程复制,支持单向、双向、一对多复制,适合异地灾备。

  正因为英特尔Hadoop发行版有种种优点,一经推出便迅速“虏获”多个大中型用户的心。

  例如,中国联通已经采用英特尔Hadoop发行版部署了一个大的Hadoop集群。中国联通研究院副院长黄文良表示,由于此前难以向用户提供上网记录查询服务,中国联通曾一度为3G服务客户数据流量所引发的计费争议所困扰,而通过采用基于至强平台及英特尔发行版Hadoop的大数据解决方案,中国联通目前已在移动通信用户上网记录集中查询与分析支撑系统的建设上获得了重要进展。这也是电信行业首次将Hadoop/HBase引入商用电信服务系统建设中。

  又例如,2011年夺得全世界视频监控产品市场份额第一,并在全球安防领域内拥有最大规模研发中心的海康威视,已经开发了基于至强平台和英特尔Hadoop发行版的大数据处理方案,以满足平安城市和智能交通应用对海量非结构化数据进行高效处理的要求。

  “英特尔硬件部门的强大实力已经毋庸置疑,我们又有Hadoop发行版,因此,我们为用户提供的是端到端的‘大数据’解决方案。”英特尔亚太研发有限公司总经理,软件与服务事业部中国区总经理何京翔博士说。

  应该说,“大数据”不过是近两年才流行起来的概念,整个业界还处于热炒概念的阶段,而英特尔已经拥有了典型的“大数据”落地案例,彰显出该公司在大数据的研发与推广方面已经领先一步。我们也期待英特尔大数据解决方案助更多的企业用户化解“数据之重”,变挑战为商机。

0
相关文章