服务器 频道

韩忠恒:从《非诚勿扰》谈到Watson技术

  【IT168 资讯】4月27日,"Power智慧随需 运算决胜千里-2011 Power Unix World论坛"在北京万达索菲特酒店正式举行。作为IBM公司年度重要的会议活动,本届大会上,所有议题围绕云计算、商业智能、系统优化三大关键词展开。

傅斌:智慧运算营造大数据时代美好未来
点击查看专题报道

  会上,IBM大中华区系统与科技事业部Power系统总经理韩忠恒从当前火热的《非诚勿扰》节目入手,与韩忠恒与Watson研发成员张雷、Power专家徐宁,共同探讨了Watson背后的技术。

韩忠恒:从《非诚勿扰》谈到Watson技术

  韩忠恒谈到,Watson是用90台去年我们发布的Power750服务器组成的,用了差不多2880个Power7核心,用了3.55GHz主频的芯片,它可以完成大量的非结构化数据的搜索,跟以前深蓝有所不同,深蓝的非结构化数据计算能力非常强,而Watson能够处理非常复杂模糊的语言。他提出让Watson来回答一个非常有趣的问题:哪位男主角在《非诚勿扰》是非常非常有名的?进而邀请张雷和徐宁深度解读了Watson背后的工作机制和强大的计算平台。

  韩忠恒:大家早上好!

  韩忠恒:欢迎大家再次来到IBM的发布会,我非常高兴参加这一环节的节目。Watson在2月份基本上轰动了全世界,过去100年,IBM公司 基于我们研发投入的执著和承诺,以及我们对传统的挑战,我们造就了很多科技的创举和突破,这些科技和突破把我们推到一个不可想象的领域。大家知道的多年前我们用计算机深蓝打败了一个世界冠军旗王,轰动全世界。今年2月份我们又一次轰动全世界。

  韩忠恒:Watson非常受欢迎,受欢迎的程度大家都知道,大家都知道智能竞赛,已经有50年的历史,在美国非常非常受欢迎。这是一种问答回答游戏,家喻户晓,它在这50年有28个获奖者,每天差不多有一千万观众,当Watson挑战这两个世界级人物的时候,赢了这场竞赛的时候,可想而知,Watson是一举成名。再次突破我们在科技上的创举。

  韩忠恒:Watson到底是什么呢?这只是代表Watson,背后让我来解释一下。Watson其实是用90台去年我们发布的Power750服务器组成的,我们用了差不多2880的Power7核心,用了3.55主频的芯片,它可以大量的搜索非结构化的数据,跟以前深蓝有所不同,Watson主要能够处理一些非常复杂模糊的语言,这需要很大的搜索,而又能够优化系统。

  韩忠恒:跟深蓝有什么不同呢?深蓝只是一个超级计算机,我们知道超级计算机是什么。

  韩忠恒:我们看一下屏幕上的数学题,能不能知道答案,我看到有嘉宾在用纸笔算,这是传统的方式,我们给你算出来,我们人类已经退化了,我们有了计算器,就不用纸和笔。我们能够在深蓝一秒钟两亿棋步打败了世界冠军,深蓝计算能力非常强。

  韩忠恒:现在很多数据都是非结构化的数据,差不多8%都是非结构化的,比如说视频、图片、语音,我们能不能在数学逻辑领域找到答案,找到解释呢?这是一个挑战。

  韩忠恒:这就是答案,有没有猜到,小于1,0.0085。我们在非结构化的数据里面就没有长处。

  韩忠恒:我今天解释Watson背后到底是一个什么样的技术。我不是技术专家,我是销售出身的。我请IBM里面两位资深的专家,一是张磊,张磊是我们IBMWatson研发团队当中的成员,二是徐宁,他是Power系统里面的专家。有请两位。

  张磊:大家好,我是张磊,我来自IBM中国研究院,在过去三年当中,我参与了Watson的研发工作,所以今天很高兴有这个机会来给大家分享Watson背后的技术和背后的故事。

  徐宁:大家好,我是徐宁,来自IBM高级技术支持中心,主要负责Power系统技术支持工作。

  韩忠恒:你们俩在,我踏实一点,有问题就会请你们回答。

  韩忠恒:参加智能竞赛首先有懂得回答一个问题,傅斌讲过,这个问题有时候很绕,在美国30多年的人士都不能回答这个问题,这个是一个高难度的,让一个系统回答,就知道有多大的难度。

  韩忠恒:我们先看一段视频。

  (播放视频)

  韩忠恒:像这样的问题,比如说我用中国的例子,是哪位男主角在《非诚勿扰》是非常非常有名的。

  张磊:这是什么什么哥吧。

  韩忠恒:对。《非诚勿扰》节目和《非诚勿扰》电影里面都有男主角,如果用Watson来回答这个问题,比较有趣,张磊,你觉得Watson是怎么样了解,怎么抓到这个问题呢?

  张磊:想参加人类智力比赛,要理解人类问的问题是什么,如果在现场被主持人说出来,机器要识别人说话的声音,就用语音识别技术,IBM掌握了世界上非常先进的语音识别技术,我们实际比赛当中仍然没有采用语音识别让机器用耳朵听这个问题,因为语音识别技术还做不到百分之百,世界上任何一家公司做不到。我们和节目制作方达成一个协议,当主持人说完这个问题,这个问题就以文本的方式传到Watson。Watson实际上得到一个问题的文本。看似这个问题变简单了,但你要知道这仍然是一个具有挑战的问题,计算机尚未解决的问题,就是如何处理和理解人的自然语言。

  张磊:Watson这个项目研发当中,我们有二三十位IBM科学家致力于研究这个问题。终于我们有所突破,掌握了一个突破性的自然语言处理技术。

  张磊:我跟大家分享一个小故事。这三年研发过程当中,我编程和调试的过程,我经常用一个英语语法的问题,我晚上传给他,他第二天就给改了传给我。我觉得这个人非常渊博,我看到这个人,是一个白发苍苍的老人,已经在IBM工作了几十年,他最大的发明就是英语语法分析器。正是因为IBM研究院常年的投入和积累,我们才能厚积薄发,在Watson研发短短几年当中可以掌握这个突破性的自然语言技术。

  张磊:除此之外,Watson要想能够听懂这个问题,不光要理解语言的语法,还知道我们在语言当中提高的一些百科知识,我说到什么人,什么地点,什么音乐、小说,它必须知道,所以我们给它灌输了两亿页文本信息量,相当于100万本书的内容。Watson读了100万本书的内容之后,才初步理解人类生活当中遇到的一些百科知识。

  张磊:除此之外,Watson还有自我学习的能力,《危险边缘》这个比赛在美国已经有几十年的历史了,他们有一个庞大的粉丝群,他们创建了一个网站,把历史比赛数据记录下来,免费公开。Watson利用过去几十年积累的数据,通过对这些数据深度挖掘,掌握了过去几十年比赛出现的规律,这一点也很关键。

  张磊:我们给它输入这么大量的数据库,让它学习,这是非常大的计算工作,我们要依赖一个大规模处理的平台,来完成这个任务,所以我们采用了Power7系统。

  张磊:有了这些能力之后,我们看到它是怎么把这些能力组装起来,并解答这些问题。左下脚是我们给他们灌输的大量百科知识,用自然语言处理技术,Watson可以阅读这些百科知识,变成机器可以理解的技术,储存在哪儿。右下方是《危险边缘》积累了历史数据, Watson学习了这些历史数据,就得到了一些数学模型,刻划了比赛规律。Watson 为什么答错问题,就是比赛类别在过去几十年当中对比赛影响非常小,那一题当中,恰恰比赛类别信息很重要,所以答错了。Watson实际上对历史数据有一个学习的过程,会形成这些数学模型。有了这些数学模型和知识,就会把这些模型和知识用于处理问题。有一个E码信息处理结架构,这个架构处理完就会得到一个问题的结案。通过这些讲述,大家会有一个初步的了解,Watson怎么 判别问题和回答问题。

  韩忠恒:抓住问题的重点,已经是回答问题成功的一半。Watson在3秒钟就可以找到问题的答案,也是一个非常困难的事情。

  我们进入下一个视频。

  (播放视频)

  如果你知道问答的问题,我们去搜索,用Google和百度搜索,你搜韩忠恒是谁,你会得到300到400万的答案,我们如何在3秒钟之内把8%的问题答对。

  张磊,你跟我们分享一下吧。

  张磊:在Watson赢得了这个比赛以后,有很多人会问我们这样的问题,Watson为什么很快找到那个答案,它和搜索引擎有什么不同。我们知道你给搜索引擎问一个问题,它会给成千上万的网页,但不知道正确的 答案是什么,它是给你大量的网页。Watson怎么能够很快在大量信息当中精确到唯一的答案呢?这依赖于视频当中提出的深度问答的框架、方法和系统。深度问答的框架、方法和系统是综合了大量分析型算法,从很多不同的角度,逐个判断搜索 回来的那些结果当中,哪些有可能是正确答案,哪些不可能是一个正确的答案,这是一个复杂的过程,我给大家解释一下。

  张磊:屏幕当中是问Watson的问题,1898年5月,葡萄牙庆祝了这个开拓者到达印度的400周年。这个开拓者是谁?Watson分析了一下庆祝是这个句子的谓语,有一些关键词,右边是Watson在庞大知识库当中找到这个知识,这个知识5月嘉黎完成周年庆从葡萄牙到达了印度。Watson会分析到一些关键词和谓语,深度问答会用搜索引擎的办法进行关键词匹配,它会从关键词上匹配,这个知识能不能回答这个问题。这也是现在的搜索引擎所采用的方法。这个例子当中关键词匹配得很好,5月匹配5月,庆祝匹配5年,通过关键词的匹配,它告诉我们嘉黎就是这个开拓者,人可以很容易看出来,但是机器不知道,它只知道这个可能是正确的答案。我们还需要更加深层次的分析算法从其他角度去看,到底哪个是正确答案。

  张磊:这一页我们举了一些例子,所谓深度分析算法,问题还是同一个问题,就是左边蓝颜色的部分,右边绿颜色是Watson在庞大知识库里面找到另外一条信息。

  张磊:这条信息说1498年5月27日达伽马登录在卡巴马海滩,Watson会分析到谓语和关键词,我们会明显的看到,如果仅用关键词匹配,这两个东西是很难匹配,登录和到达不匹配,我们会用深度分析。深度分析有三个算法,一是时序推理,可以计算时间和问题的分析,1898年减去400,就是1498年,二是统计同义判断,这个算法阅读了大量的人类语言以后,它做过一些统计,它会发现登录和到达这个单词在意思上是相近的,三是地理上也可以推理,卡巴马海滩在印度,它会分析出达伽马是真实的答案,Watson通过大量的算法评估才能得到答案。

  韩忠恒:通过你详细的解读,我了解了,关键是深问答架构。

  韩忠恒:我们看下一段视频。

  (播放视频)

  韩忠恒:我们知道深度问答是一个架构文件,如果是一个软件,我们是不是可以用别的平台,比如说英特尔,过去几年研发当中,我们不断调优和进化,回答数据也非常快,我们可以用别的代替吗?为什么一定是Power7呢?徐宁回答一下。

  徐宁:一开始研发小组尝试过用X86平台作为Watson的系统,但是发现一个问题进入到这个系统,两个小时才可以得到答案,这显然无法参加比,所以研发者就转到Power。Power7从研发开始就把大规模的并行计算作为一个主要研发方向,我们知道Power7芯片里面IBM采用了一个专利技术就是EDY,我们可以把三级缓存集中在芯片之中,我们在芯片内部可以提供超过500G 访问带宽,非常适合大规模并行预算。

  徐宁:很多人没有注意过Power7里面一句话,Power7芯片可以同时支持2万个系统耦合的操作,很多人不理解耦合是什么意思?这是芯片里面一个非常关键的技术。北京现在天天堵车,堵车是什么原因呢?当我修了一路,车越来越多,一开始车跑的起来,车再多了,整个路会被堵死,一辆车都跑不动。我们耦合技术就是系统里面同样出现这样情况,应用负载越来越大,系统会被整个堵住。耦合操作相当于路上放了2万个警察,它负责协调各个进程之间的数据访问。如果我路上放了警察负责进程数据访问,负载很高的情况下,系统也可以顺利的运行。很多CPU利用大于90%,还能保证我们运行空间,这是耦合技术非常有关。

  徐宁:DQA可以分析问题,需要这个系统有横向扩展能力和纵向扩展能力,Power7芯片中有很多这样的技术,其中有一个智能多线程,当你系统的线程很少的时候,一个CPU就跑一个线程,可以让你线程跑得很快,我可以用一个CPU跑两个线程,甚至四个,我们有一个工作负载优化系统,你需要线程跑得很快,我就调动很少的线程,如果你需要很大的并发量我可以调动很多的线程,你根据不同的需求,进行优化,这就是Watson研发团队为什么选择Power7系统了。

  韩忠恒:太好了,Power7还是有很多的优势。过去有很多应用了Power,像深蓝用的就是Power系统,太阳火星探索器也是Power的系统。

  徐宁:现在用的是我们Power7平台。

  韩忠恒:希望越来越多的系统使用Power7。

  韩忠恒:我们接下来再看一个视频,看看Power7的应用。

  (播放视频)

  Watson是一种商业智能的应用,Watson背后就是Power7,其实它在很多行业里面,包括电信行业、政府行业、金融行业都发挥了Power7的功能和应用,Power7不仅仅限于游戏的应用。

  张磊,继Watson这个项目当中,我们研发方面有没有新的发展方向和研发规划呢?请你透露一下。

  张磊:我们确实有把Watson应用到各行各业的计划,项目研发之初就设定一个目标,我们不光做一个巨大的挑战性问题,一个科研性问题,而且我们要使得这个研发出来的系统尽快的应用到各个行业当中,因为我们意识到在各行各业当中现在都面临一个问题,你有大量的非结构化的信息,你想很简单问它一个问题,立刻告诉我们答案。我相信Watson在各行各业有这种应用。

  张磊:我们当初为什么选择Power7系统呢?就是因为它是一个大家马上就可以在市场上买到的,不像多年前深蓝,深蓝用的是特殊硬件和芯片,很难应用于市场。

  张磊:Watson用的是负载优化系统,可以应用在各行各业的加速上。

  张磊:我们项目开始之初就有这个考虑。

  张磊:回过头来,Watson具有很多能力,这些能力可以应用到很多行业,比如说Watson参加这个比赛的时候,要处理百科知识,宽广的领域。我们知道处理百科知识的时候,我们给Watson灌输了100万本书,这个信息量非常非常大。我们开发的时候有一个很有意思的 问题,我们不断要求系统管理员买硬盘,可以想像那个数据量有大。

  张磊:Watson还可以解析人类的语言,很多单位都有大量的结构化信息, 应用Watson,就可以企业和机构在文本信息当中获得知识和答案。

  张磊:它可以对答案的正确度有很准确的评价,这在比赛的时候很有用,实际应用的时候都很有用。很多机构和企业在用商业智能系统的时候,得到一个结论的时候,往往有疑问,机器给我的结论可靠性到底有多大。现在系统不能告诉我这个事情,Watson可以告诉你,这个答案为什么是正确的,整个正确的可能性有多大。你用商业系统做决策的时候更有把握,你知道你依赖的这个信息有多可靠。

  张磊:Watson在3秒之内就可以给你答案,在实际业务当中,很多企业都需要有十时的决策,现在世界变化太大,业务变化也太快了,这个可以帮助你应用在实施决策上。Watson可以应用到很多领域。

  张磊:Watson最先看中的一个领域就是医疗,我们知道医疗领域有大量的文献、化验结果、病例等等,这些信息大部分以人类语言方式记录下来,有Watson之前这些信息很难处理,有了Watson处理人类语言之后,就可以容易实现了,Watson不仅可以让一个医生给你看病,它可以让全世界的医生帮你看病。医生有一个疑问,Watson从庞大的知识库里面,可以立刻帮助医生找到这个答案,然后告诉这个答案来源于哪里,正确性有多大,可以辅助医生作出正确的决策。

  张磊:Watson还可以应用于金融、电信等其他问题。

  韩忠恒:我想问一下Watson项目灵感是从哪儿来的?

  张磊:我透露一下内幕,其实这是一个小花絮,得到知道14年前IBM研制深蓝战胜了卡斯帕洛夫,自此那之后IBM研究院就在想下一个挑战,我们想了很久没有答案,有一次科学家和IBM高管还在聊这个问题,一直没有突破。在一个酒吧里面随便聊,想这个问题,突然发现很多人离开这个酒吧了,跑到另外一个房间,看电视,大家都在看《危险边缘》这个项目,这时候IBM科学家和高管就想,为什么我们不去挑战《危险边缘》呢?美国成千上万的人看这个问题,挑战这个问题,IBM更智能了。所以我们IBM研究院决定挑战这个问题。

  韩忠恒:谈到人工智能,这是一个很热门的话题,有人担心Watson的人工智能有一天会不会代替人类的思考和判断呢,这是我们应该担心的事情呢?

  张磊:Watson出现以后,很多人问我这个问题,Watson会不会取代人类,我觉得很长时间内Watson没有意识,我们让它做什么,它就做什么,还没有达到自我判断和取代人类的目的,我们研究Watson的目的是让它帮助人类,而不是取代人类。

  韩忠恒:这样我们就放心了。非常感谢两位技术专家解释Watson背后的技术。

  张磊:谢谢大家。

  徐宁:谢谢大家。

  韩忠恒:Power已经有二十年的历史了,在过去的十年,在中国都有很好的地位,我们在市场已经达到55个百分点,过去十年都是第一。非常感谢大家的支持,对Power系统的热爱。

  韩忠恒:现在给大家回顾一下Power二十年的历史,进入Unix World,谢谢大家。

  (播放视频)

  韩忠恒:Power已经有二十年的历史了,在过去的十年,在中国都有很好的地位,我们在市场已经达到55个百分点,过去十年都是第一。非常感谢大家的支持,对Power系统的热爱。

  韩忠恒:现在给大家回顾一下Power二十年的历史,进入Unix World,谢谢大家。

0
相关文章