服务器 频道

选择X86平台构筑大数据平台的坚实基础

  【IT168 专稿】数据,从来不是一个陌生和新鲜的词汇,然而,当我们日常生活中的点滴数据汇成“大数据”海洋时,我们发现,数据已然不仅仅只是数据,而在其中蕴含了大量的商业价值。今天的企业正驾驭着商业巨轮航行在数据的海洋中,伴随着传统的商业智能向纵深应用的拓展,商业决策已经越来越依赖于数据,只有对数据有效利用并充分驾驭,才能在未来的商业竞争中游刃有余。

  挖掘数据宝藏的价值

  “百度开始接触hadoop是在2007年间,实际上百度开始数据分析的时间要更早……” 百度资深研发工程师马如悦告诉IT168编辑,而对于百度等搜索引擎或互联网公司来说,最常见的数据分析应用就是Web访问日志分析。

  Web日志是用户访问网页后留下的行为足迹,每一条日志都代表着用户的一次访问行为。从Web日志中,我们可以得到大量的用户信息,例如访问者IP、访问时长、目标网页、来源地址以及访客所使用的客户端的UserAgent信息等,甚至还可以在网页中嵌入js代码,主动发送请求,收集更多用户信息……

  毫无疑问,百度的Web日志中包含了大量人们——包括产品分析人员、决策者等感兴趣的信息。简单来说,我们可以获取网站不同页面的PV值(PageView,页面访问量)、独立IP数(即去重之后的IP数量)等;稍复杂一些的情况,可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等;更为复杂的,我们还可以应用Web日志分析结果构建广告点击模型、分析用户行为特征等等。

  用户的访问数据蕴含着重要的价值,并给百度带来了显而易见的回报,但百度的情况并非个案,数据挖掘也决非互联网公司的专利,在越来越多的行业与领域中,“大数据”的商业价值正日益凸显出来。

  中国东方航空股份有限公司总经理严振红告诉IT168编辑:通过对数据的挖掘与分析,提高用户体验,正成为东航转型过程中的重要一个环节。东方航空公司从2010年开始建立统一的旅客数据库,一些旅客的偏好信息都尽可能收集到统一旅客的数据库,目前该数据库的数据增长速度非常快。

  “未来,东航的目标是从你旅行计划开始,到旅行计划结束的综合服务商。所以对大数据的挖掘与分析会帮助东航更好的推进转型。”

${PageNumber}

  Hadoop与传统BI的对比

  新兴互联网公司百度,以及传统航空企业东航,都在大数据领域进行了深入尝试,同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业都无一例外的认识到,数据已经成为企业的核心资产,如何充分利用这部分核心资产,并挖掘更多的商业价值,将关乎这些企业能否在大数据时代继续保持基业常青。

  今天,企业对数据价值的认同已经成为共识,然而如何从海量的数据信息中挖掘其中的价值却并不那么容易,幸运的是,百度找到了hadoop数据挖掘与分析工具。

  “当时的百度也有自己的几个分布式处理框架,但是在扩展性和容错方面尚有一些问题,并且都较为专用,缺乏较通用的计算模型。那时百度也启动了一系列较底层的基础框架方面的项目,同时也看到了Google关于MapReduce的论文,于是开始了基于自身需求的Hadoop定制化。”马如悦如是说。

  Hadoop是一个开源的分布式系统基础架构,由Apache基金会开发,使得用户可以在不了解分布式底层细节的情况下,开发分布式应用程序,充分利用集群的威力实现高速运算和存储。Hadoop尤其适合大数据的分析与挖掘,最为常见的应用就是Web数据分析。因为从本质上讲,Hadoop提供了在大规模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式,且可以支持多种数据源 (结构化、半结构化和非结构化),规模则能够从几十台服务器扩展到上千台服务器。

  随着越来越多的传统企业开始关注大数据的价值,Hadoop也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能解决方案,Hadoop拥有无以比拟的灵活性优势和成本优势,这一点eBay自动化架构总监Juhan Lee深有体会:

  “从海量的非结构化数据中分析数据,并试图找出其中暗藏的规律时,我们往往需要构建一个数据分析的模型,并把这些非结构化数据进行结构化,生成一个分析型的数据库。” Juhan解释说。

  “问题在于,你根据某种分析的需要将大批非结构化数据转化成结构化数据之后,一旦分析的需求发生变化,你需要把之前的工作重新做一遍。Hadoop的内部数据存储能力是非常重要的,能在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop系统允许你不断的尝试。在传统的数据分析系统中,你必须明确的知道你希望做什么,需要哪些数据。”

  而百度马如悦则告诉IT168编辑:MapReduce现在在百度使用非常广泛,包括分布式网页索引的建立,各种日志的挖掘分析等。集群总机器数在万数量级,日均输入数据处理量在20PB左右。

  此外马如悦认为Hadoop 并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言,我们认为MapReduce较适合处理时效性要求在5分钟以上的业务。”

${PageNumber}

  构建hadoop运算坚实的平台

  百度构建了超大规模的服务器集群来运行Hadoop,其中日志处理与分析站到了全部hadoop集群的80%,处理数据量从几个G到上P,运行时间从几分钟到几十个小时。

  谈到Hadoop集群的硬件基础,马如悦告诉IT168编辑:“百度使用的服务器品牌较多,市面上主流的服务器品牌均有涉及,但绝大多数都基于英特尔X86平台,配置则大体上是8核CPU(主要是英特尔至强7400/7500系列),32GB内存,12TB硬盘。此外我们也在尝试定制自己的服务器。”

  “选用什么样的服务器需要根据具体的应用而定。比如使用hadoop做日志存储和挖掘,可以参考百度上面的配置。如果是作为HBase的底层存储,并且有大量的随机查询,那么使用SAS硬盘,甚至SSD都是可以的。不同的业务需要不同类型的配置。即使同一个业务,也可能需要分层考虑。这样才能做到成本最低。”

  大体来说,hadoop应用对系统的要求侧重计算、存储与网络性能的均衡,这一点则正好与英特尔X86平台不谋而合。英特尔至强7400/7500系列处理器已然为百度Hadoop集群奠定了坚实的硬件平台,今年英特尔发布的至强E5平台则无论在性能、吞吐能力和带宽方面都有均衡的提升。

  英特尔最新一代E5处理器相比前代至强5600处理性能提高了80%,同时,英特尔E5芯片中的DDIO技术也大大提高整体IO性能,这一技术能把IO数据包指向处理缓存,跳过内存,从而能够大大减少延迟,增强系统总带宽,还消除了内存的功耗。英特尔集成IO把IO子系统移到了处理器芯片处下,同时得益于PCI-E 3.0的支持,可以把服务器平台的延迟减少多达30%,带宽增加2倍。

${PageNumber}

  英特尔的大数据野心

  基于英特尔处理器的X86平台在构建hadoop集群时拥有得天独厚的优势,然而英特尔在大数据市场中可发挥的空间远远不止于此。前面我们提到,hadoop对基础架构的要求较为均衡,内存、处理器、吞吐和网络都不能成为瓶颈,如今,英特尔也在万兆以太网、SSD等领域齐头并进。

  目前千兆网对于HADOOP这种分布式服务器和存储架构来说已经不够用,很容易成为系统的整体瓶颈。因此在分配大数据时,需要更高的网络带宽。如今,虚拟化和多网融合正驱动万兆以太网发展,英特尔也在积极推动万兆以太网应用与普及。

  英特尔 X540是最新的万兆以太网控制器,也是业界第一块全集成10GBASE-T控制器,把MAC和PHY集成到了一个芯片上。据英特尔表示,X540网络控制芯片适合搭配不久前正式发布的Sandy Bridge-E架构Xeon E5系列处理器使用。借助Xeon E5系列处理器的I/O连接界面,这个搭配可以发挥出更高的网络效率。

  存储方面,英特尔于今年春季IDF大会上发布了基于PCI接口的910系列闪存加速卡,它是一个半高半长的PCIe gen 2 x8卡,通过25纳米MLC闪存,分别提供400GB和800GB的存储容量,采用英特尔固件达到控制器功能。最高为18万次随机读取IOPS(4K块)和7.5万次随机写入。对于存在大量随机查询的Hbase底层应用来说,SSD将大幅度提升整体系统性能。

  此外,英特尔日前还首次发布了Hadoop发行版。英特尔亚太研发有限公司总经理,软件与服务事业部中国区总经理何京翔博士介绍,Hadoop发行版的优势包括三点:首先,英特尔基于开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现Hadoop,比非英特尔发行版获得性能的成倍增长,其处理能力达到“接近于实时”的处理效果。同时,英特尔Hadoop manager 2.0简化Hadoop的部署与管理工作;此外,通过和中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版还针对中国市场的行业和应用特点做了更进一步的优化。

  “我们已经认识到,现在互联网、移动应用加物联网时代,要求我们必须更贴近客户,了解客户需求,使我们的产品和解决方案更加贴近于用户要求。不仅仅和硬件芯片相关,还涉及到软件应用水平、服务的水平,这也是我现在所在的软件及服务部门的宗旨之一,帮助英特尔在实现未来十年愿景上提高一个层次。” 何京翔博士表示。

${PageNumber}

  后记:潜入大数据的深水区

  百度应用hadoop对其访问日志进行了多维度的分析,并以此作为决策依据,造就了中国互联网公司的典型代表。其中,英特尔X86平台为百度hadoop集群奠定了坚实的硬件基础。

  在很多人看来,大数据似乎与传统的半导体巨人英特尔毫无关系,并对英特尔是否有足够的能力抓住快速崛起的“大数据”机遇心生疑虑。然而,英特尔以实际的步调和行动向我们证明:英特尔不仅牢牢把控着传统的硅晶体世界,也有能力在未来的大数据蓝海中赢得竞争。在这个“大数据”时代,英特尔正在用一个与众不同的方式寻找自己在大数据生态圈中的位置和未来。英特尔正潜入“大数据”深水区。

0
相关文章