服务器 频道

Google软件工程师谈MapReduce

  【IT168 专稿】Hadoop in China社区一年一次的技术年度盛会Hadoop中国云计算大会(Hadoop in China 2011,HiC2011)12.2-12.3日在北京召开,Hadoop in China已经成功举办四届,今年大会的主题是“海量数据掘宝”,HiC2011由中国科学院计算技术研究所主办,通过技术应用和科学研究双重视角审视云计算以及Hadoop开源生态系统的现状和发展趋势,发扬开源精神,促进Hadoop以及云计算开源生态系统在中国的发展壮大。


▲Google软件工程师Grzegorz Malew

  会上,Google的软件工程师Grzegorz Malew发表了”Beyond MapReduce”的主题演讲。Hadoop最早是受到由Google Lab开发的MapReduce和Google File System的启发,并由Apache软件基金会于2005年秋天正式引入,2006年3月,MapReduce和Nutch分布式文件系统分别被纳入Hadoop项目中。

  作为一家每天都要快速处理大量数据的大型互联网企业,Google也是最早应用MapReduce的企业,因为MapReduce可运行在普通机器组成的机群上,机群的规模还可以根据应用情况灵活调整,一个典型的MapReduce计算处理几千台机器上以TB计算的数据量,大量程序员的使用证明了MapReduce的易用性,目前,Google已经实现了数以百计的MapReduce程序,每天在Google的机群上都有1000多个MapReduce程序在执行。

  结合自身在MapReduce开发与应用的经验与体验,Grzegorz Malew回忆,从2008年11月,谷歌采用了4000台计算机处理1PB的数据花费了6小时2分钟的时间,而到了2011年9月,则使用8000台计算机处理10PB的数据,花费的时间相当,3年间,MapReduce带来了数据处理能力的快速提升,这样体现了MapReduce优异的扩展性能,在处理PB级别的数据方面,MapReduce正发挥着重要的作用,现在用时30分钟就能处理1PB的数据。

  未来随着数据的快速增长,特别应对巨量非结构化数据,MapReduce技术开发提供了有力的解决之道,已经有不少应用程序都是基于MapReduce开发的。

  浏览Hadoop中国云计算大会可猛击这里

Google软件工程师谈MapReduce

0
相关文章