服务器 频道

好好学习 天天谷歌——谷歌服务器架构浅析

平台:GFS/MapReduce/ BigTable/Linux

    GFS/MapReduce/ BigTable/这三个平台,是谷歌最引以为傲的平台,全部架构在Linux之上。

    首先我们来看一看GFS(Google File System)谷歌文件系统。我们知道,一般的数据中心检索时候需要用到数据库系统。但是Google的情况很特殊——Google拥有全球上百亿个Web文档,如果用常规数据库系统检索,那么检索速度就可想而知了。因此,当Crawlers采集到许多新的Web后,Google将很多的Web都汇集到一个文件里进行存储管理,而且Google将Web文件压缩成Chunk块,进一步减少占用空间(64MB一个chunk)。最后,Google只检索压缩后的部分。而GFS(Google File System)正是在这样的检索技术上构建的文件系统,GFS包括了GFS Master服务器和Chunk服务器。如下图所示,系统的流程从GFS客户端开始:GFS客户端以chunk偏移量制作目录索引并且发送请求——GFS Master收到请求通过chunk映射表映射反馈客户端——客户端有了chunk handle和chunk 位置,并将文件名和chunk的目录索引缓存,向chunk服务器发送请求——chunk服务器回复请求传输chunk数据。

    如果读者您读着有点迷糊,这很正常,因为只有少数搜索引擎企业才采用这样的技术。简单来说是这样:Google运用GFS大大简化了检索的难度。

     除了GFS,MapReduce对Google也是功不可没。Google拥有不少于45万台服务器,看起来每台服务器的职能都非常明确,但是其中却有重要的协同问题有待解决:如何并发计算,如何分布数据,如何处理失败,如何负载均衡?我们可以预见,无数的代码将被用在协同问题上,而且很可能效率低下。这时候,MapReduce就派上用场了。MapReduce是Google开发的C++编程工具,用于大规模数据集的并行运算。MapReduce主要功能是提供了一个简单强大的接口,可以将计算自动的并发和分布执行。这样一来,就可以通过普通PC的集群,实现高性能。MapReduce主要从两方面提升了系统:首先是失效的计算机问题。如果某一台计算机失效了,或者是I/O出现了问题——这在Google以廉价服务器组建的集群中极为常见,MapReduce的解决方法是用多个计算机同时计算一个任务,一旦一台计算机有了结果,其它计算机就停止该任务,而进入下一任务。另外,在MapReduce之间传输的数据都是经过压缩的,节省了很多带宽资源。至于BigTable,这是一个用来处理大数据量的系统,适合处理半结构化的数据。
0
相关文章