揭秘Watson智慧源泉 Power7成就3秒作答-服务器专区

揭秘Watson智慧源泉 Power7成就3秒作答

作者：孟庆编辑：孟庆 2011-02-16 00:05 IT168网站原创

【IT168 专稿】日前，举世瞩目的IBM超级计算机“沃森”（Watson）在美国智力竞赛节目《危险边缘》（Jeopardy！）中完成了第一轮对抗挑战，与两位前冠军的积分排名分别是：沃森：5000；Brad Rutter：5000；Ken Jennings：2000。那么，在这场半小时的人机智力对抗问答中，“沃森”究竟面对着什么样的困难，又是如何与人类冠军打成平手的？本文我们将揭秘构成“沃森”智慧的源泉——Power 7是如何与人类角力的。

揭秘Watson智慧源泉 Power7成就3秒作答
▲IBM “沃森”在现场对抗两位人类冠军

全面解析“沃森”面对的智力难题

在《人机对抗比拼智力 Watson再掀风暴》一文中，笔者回顾了1997年卡斯帕罗夫惜败于IBM“深蓝”的历史，并简要阐述了棋类竞技与“沃森”此次面对的“智力挑战”主要区别在于两点：先要拆题，理解人类自然语言；之后要迅速在自身存储的知识海洋中筛选比对出正确的答案。而在完成这两点的过程中，还需要与人类选手竞速抢答——答错倒扣分使得“沃森”必须先想清楚再抢答。

来自IBM中国研究院的张雷表示，“沃森”的真正挑战在于理解问题的真正含义，正确比对数据库，并且在诸多信息中去伪存真找到正确答案。另一方面，尽管Watson存储了大量的百科全书和其它的信息，但实际上《危险边缘》的问题并不能轻易地在这些信息中找到答案，更不用说按照游戏规则只能提供唯一的答案，而且提供错误的答案要受惩罚。因此，“沃森”的考验来自于海量数据分析和计算可靠性保证。

揭秘Watson智慧源泉 Power7成就3秒作答
▲新浪微博的IBM“高手”在作答沃森相关问题

与“深蓝”相比，IBM“沃森”不但没有采用专门的硬件，也没有后端工程师实时修正算法——并且“沃森”也没有连接互联网——全靠“自己想”。IBM中国研究院的潘越表示：国际象棋定义明确，主要涉及数学，电脑可以轻易表示每一个游戏状态及相应步骤。《危险边缘》则要求电脑必须理解人类自然语言。与国际象棋不一样，人类语言完全是开放式的，往往模棱两可，需要上下文才能理解意思。虽然我们可以轻松理解人类语言，但开发理解人类语言的电脑系统却极具挑战性。

据张雷解释，自然语言理解是“沃森”在比赛中面对的核心问题之一，特别是如何更快的利用已有的各种非结构化和结构化的知识来帮助自然语言的理解。这中间又涉及到机器学习、大规模并行计算、语义处理等领域。“沃森”了不起的地方在于把这些技术整合在一个体系架构下来应对自然语言理解的巨大挑战。

Power 7给力 “沃森”思索不输人类

IBM中国研究院的张雷介绍说，“沃森”的一个重要意义就是说明通用小型机在海量数据处理与性能级运算中已经拥有不输于人脑的能力——构成“沃森”的是市面上买得到的90台Power 7通用四路服务器。也就是说，每台Power 7服务器拥有四个8核Power 7处理器，构成32个计算内核，而“沃森”也就拥有了2880个Power 7计算内核（360个处理器）。

那么“沃森”的Power 7核心又是凭借什么处理海量数据的呢？笔者认为主要有以下四点特性使得Power 7得以承载起“沃森”。

1、eDRAM三级缓存带来超高性能

所谓eDRAM顾名思义，就是指嵌入式动态随机存储器（Embedded DRAM），它有两方面的好处。首先是eDRAM本身比目前广泛使用的SRAM缓存具有更高的速度，更高的密度以及更低的功耗。根据IBM的官方数据，eDRAM只需要传统SRAM三分之一的空间，五分之一的功耗就可以获得同样的缓存容量，并将错误几率降低250倍。

eDRAM与逻辑晶体管全兼容，且逻辑性能不会退化。IBM Power 7处理器集成了高达32MB的片上L3级缓存，较片外缓存延迟只有1/6，带宽则提升了两倍。我们知道，处理器执行计算需要依次在L1、L2、L3缓存中查询数据，而缓存越大使得查询“中靶率”越高，Power 7中的32MB L3级缓存可以说将这种思路拓展到了极致。

2、SMT4智能的并发多线程

并发多线程技术（SMT）大家已经不陌生，但是与以往单一物理内核能分出2个逻辑线程并行计算不同，Power 7中的SMT4将每核心的多线程数量从以前的2线程提升至4线程。而且处理器可以智能的根据应用需求在单线程，双线程和4线程之间动态切换自身的线程数量，以获得非常好的应用表现。

所谓智能并发多线程，指的是IBM Power 7不是每颗核心4线程，而是智能的根据应用调整线程数量——在面向繁多的“碎小计算”时转入SMT4模式，8核32线程最大并行计算；而面向大规模单线程计算任务时，转入SMT1模式，8核8线程，最大化的使用每颗内核进行计算。

IBM官方数据显示，当负载能够受益于多线程时，SMT2模式较SMT1提升50%，SMT4模式较SMT1提升80%。

3、Turbo Core模式将全部资源集中

对于“沃森”来说，海量数据的瞬时分析，一方面考验了并行计算特性，另一方面也对线性计算的次序提出了严格要求。也就是说，如果“沃森”通过并行计算检索了很多数据，又如何能进行比对并筛选出答案，进而抢答——这就需要组成“沃森”的“细胞”——Power 7服务器在两种情况下都具有超强性能。

Turbo Core模式最大特点是根据应用负载的变化，自动关闭Power 7八个核心中的四个，将缓存、带宽资源全部分配给剩下的四个核心，并动态提升主频。举个形象的例子，8辆车（8个核心）在高速公路（相当于带宽）上跑，现在退出了4辆车，于是变相等于剩下4辆车的路（带宽）变宽了——而那4辆车的汽油（CPU内供电）也给了剩下的车，于是发动机可以超负荷工作（提升主频）跑的更快了。此外，剩下的4辆车还获得了全部的货物（缓存）。

对于数据库和事务工作负载来说，计算的并行度并不是掣肘的因素，因此IBM在Power 7中会用“牺牲其他4核”的方式集中所有资源给剩下的内核，以提高计算强度。另外，从目前日趋流行的虚拟化和云计算发展来看，减少处理器内核有助于降低虚拟化软件的收费；而云计算也是按需付费计算核心数量，这样在获得较高数据库性能的同时，降低了成本。

4、AME技术将可用内存拓展100%

AME技术全称是Active Memory Expansion ，是从POWER7开始支持的一项新的内存虚拟技术。它通过内存数据压缩的方法，在已有内存容量不变的基础上，为服务器开辟更多的LPAR，或是提升LPAR性能。“沃森”同时处理海量数据检索，对内存需求达到了无以复加的地步——这几乎是一个追求极限性能的计算项目——与人脑对抗。

据IBM透露，在SAP应用测试环境下，Active Memory Expansion可以将内存量提升50%，该技术将使得之前受到内存容量限制的同性能服务器多处理65%的交易处理或用户量。在Power 7系统上，AME技术可以让SAP等内存密集型应用程序将目前的内存多认出50%，而有效扩展推度可以达到100%。

关注我们