实现语音操控浪潮携手科大讯飞共成长-服务器专区

实现语音操控浪潮携手科大讯飞共成长

作者：刘策编辑：刘策 2014-10-20 17:31 IT168网站原创

　　【IT168 评论】 9月26日，2014高性能计算用户大会在京举行，近千位国内外高性能计算研究与应用专家和用户代表到会。大会提出“HPC PLUS”理念，认为高性能计算正在联接世界、改变生活，并展示了高性能计算在全球最大射电望远镜阵列SKA项目、政府间气候变化委员会IPCC-AR5、天河二号超大规模应用等大科学工程中的最新进展，分享了深度学习、个体医疗以及脑科学等全球热点技术领域的高性能计算应用趋势。会后，科大讯飞高级副总裁胡郁和浪潮Inspur-Intel中国并行计算联合实验室首席工程师张清共同接受采访，具体速记如下。

　　问：问一下张清，您现在可能浪潮在科学研究层面您很少接触，因为总感觉浪潮在做硬件，跟软件有关，能不能谈一下您现在的研究成果，包括跟合作伙伴现在共同的在哪些项目有研究?

　　张清：好的，浪潮除了在硬件给用户提供解决方案之外的话，也侧重用户应用的这个层面，我们会以应用先行，从应用战略出发紧密跟用户一起来合作，来推进他们应用的一些问题，要解决应用的性能问题和应用在规模扩展的问题，解决更复杂的问题。那么这一块的话我们跟用户的话，像在高校，在开展流体的，还有电磁学的这些高性能计算应用，还有一些中科院的，像生物物理所开展三维电镜重构，以及跟我们这些应用，还有相关的一些企业，像中石化、中石油开展勘探的一些应用，然后在深度学习也在跟讯飞这块，我们一起来开展在语音方面深度学习的一个合作，在互联网方面也在开展图像，包括基因学习方面相关的应用。总之我们基于英特尔，浪潮跟英特尔并行合作联合实验室在开展多核并行计算，跟MIC中国计算的一个应用研发，和包括跟NVIDIA联合的云超算，应用创新中心来开展GPU架构的一个应用研究，从新的架构上面来开展帮助用户来解决性能的问题。

　　问：我觉得第二个问题可能是给胡总，那么其实语音识别这块，其实是很多公司都在研究，包括说IBM、微软，那么科大讯飞也是研究很长一段时间了，您觉得这两个问题，一个是这个HPC和这个语音识别是有什么样的绑定。第二个问题科大讯飞作为一家国家的企业，和IBM和微软语音识别研究中心有哪些不一样的地方，或者说有哪些优势?

　　胡郁：我先回答第一个问题吧，其实这个高性能计算跟现在语音的，智能语音技术，我觉得是有两个方面的一个结合，第一个方面就是我刚才讲的，因为现在随着语音的识别需求被大量增加，那么在各种移动式设备里面，它这种需求增加以后我们要提供这种能力，提供这种能力本身是需要大规模的计算，我不能讲这种大规模一定是超算，但是它遇到的问题跟超算是类似，就是说现在我们有几千台服务器集群，那么这些服务器集群它可能是逐步的由原来单台的服务器慢慢就形成了它的体系会复杂化，它的软件硬件和提供服务层面会越来越把储存计算、服务要一体化，这个其实在浪潮像一体机有很多的结合点。

　　那么另外一个方面就是我刚才提到除了提供能力以外，我们原来在把它的效果的效能提升上面，就是我训练它这一部分，学习它的一部分，而不是说提供能力的一部分，以前几台服务器，一些硬盘就可以解决了，因为那时候语音数据量很少，但是现在我们每天得到语音数据量都非常非常大，原来我们训练一千个小时，现在我们需要训练两万个小时，将来我相信可能还需要甚至一百万个小时的语音进行训练，每个人都有他的音色。这个时候就需要跟我讲的在训练这个方面就需要一些特殊架构的服务器，它还不是一般的我们把服务器架构起来就可以。这就跟我刚才讲的，深度学习有很强的联系，深度学习它是个串行的，它没法并行化，这时候我们在这些服务器上有些特定的要求，那么这些特定的要求就构成了，我觉得是对确保我们以后语音进一步性能提升的一个，在超算结合的一些新的点，而这些是以前的超算服务它可能没有接触过这种应用，那么在这个方面我觉得有很大的空间，这是我觉得这两个方面。

　　你第二个问题我来回答一下，就是说现在国际上大家都在做各种各样的语音，但是不同的公司做他的目的是不一样的，我觉得第一个是战略层面上的，比如说微软他只是要增强他原来的系统，因为他原来已经有生态系统，他有操作系统，所以他一定要增强他的，而不是增强别人的。而我们的讯飞的目的，我们在中国现在是做中国语音产业联盟的理事长单位，我们的目标非常清晰，我就要支撑中国在各个方面的应用，包括这个手机的、电视的、车载的，以后甚至各个方面，行业的安全的，我们要把这种能力以合适的方式提供给他们，而不是说我已有的比如说操作系统或者什么之类的，所以说大家的目标首先战略上是不一样的，我们是要支撑整个国家语音的这个方面的需求和安全，因为它还涉及到，这个我要提醒一下，语音技术设计到安全问题，因为语音是可以确定你身份的，其实我们现在大量使用如果语音存到别人的服务器上，他提取这个语音都知道你是谁的。

　　问：是可以识别你的，有点像指纹一样。

　　胡郁：它有一个声纹识别。那么第二个我们在合作的过程我们采用的方式不一样，国外的公司一般采用的是雇佣一些中国的高端研究人员去做这个事情，我们采用的方式其实我们是有一套产学研一体化的方式，我们和中国科学技术大学，清华大学，哈尔滨工业大学，通过把这些教授他们的前端研究和我们的产业对接在一起，我们保持了一个持续的不断往前进发的这么一种力量，这是一方面。另外让这些老师他们的研发的方向，也能够瞄准最新的产业，这个不会产生脱节，而现在的一些国际的大公司，他们的方向可能就把学生拿过来直接做就可以了，所以我觉得在构建整个国内的产学研一体化，这个方面生态方面，人才方面我们是有不一样的思路和做法。

　　问：目前在您的这个领域，包括和浪潮合作的项目中间，有些成功的商业化的例子没有?都在哪些列与?

　　胡郁：坦白说我觉得语音，包括智能化这个部分现在还比较新，我们现在已经有一些在两个方面，我刚刚说到了，但规模都还不大，两个方面一个是指我刚刚讲的运算服务器，我们原来都采用的是国外的通用的服务器，那么一方面随着国家对信息安全进一步的增强，我们现在也开始使用浪潮的一些服务器，另外就在我刚才讲的智能的训练这部分，我们现在也在搭建，包括跟浪潮在内的一些国内厂商，要把大脑的这部分，就大脑的学习这部分，也要把它用浪潮的服务器来搭建起来，这两方面都有试点，我觉得现在的规模相对于浪潮其他方面的应用规模还是比较少的，但是后面潜力很大。

　　张清：对，跟讯飞这块我们也开展深度学习应用这一块，刚才说的，现在目前有一个初步的结果，就是说从原来的我们单节点服务器，然后能扩展到就是说更大规模的，有四个节点，把这个应用程序扩大到能处理更多的语音数据训练，可以看到我们双方有合作的来做这个事情。

　　问：浪潮现在可能在语音识别这方面，用GPU的结构更合适还是CPU更合适?

　　胡郁：在语音方面，现在是这样子的，就是说语音的训练它是很复杂的过程，它中间有一些步骤是可以用CPU综合的这个方式来实现的，但它现在在跟DNA只是语音识别中的一个算法，这个核心算法现在必须用GPU才能效率更高，所以说我刚才讲的架构是一个很混合型的，这个里面就是有很多技术研发的工作在里面。

　　问：我问一个问题，我来自比特网，我想请问一下胡总，咱们科大讯飞在目前主要盈利的模式大概是怎么样?刚才听您介绍咱们可能更多是倾向于为其他行业或者其他企业提供语音服务，这个会是咱们主要的盈利模式吗?还是咱们会兼顾其他的，比如说授权，知识产权这种交易。另外一个问题是关于语音识别，刚才您提到训练的基础，计算平台，咱们计划是自己搭建，还是租用浪潮的数据中心来构建咱们的基础计算平台?

　　胡郁：我回答这两个问题，第一个问题是说什么呢，是说我们现在的语音服务，其实原来的模式就是授权，授权的意思是什么呢?就是我把这个引擎卖给你，后来我们发现这种方式其实并不好，用户并没有把引擎的威力发挥出来，最重要的一点我讲人工智能是不断学习，他买了一个引擎他要再升级，还得花钱，所以很多人就不愿意，他没有这个动力，所以循环利用不起来。所以我们现在做核心的业务是两种，一种是我们通过云计算的方式，给各个行业提供支撑，在这个支撑过程中用这种增值的办法来获取，其实我觉得是授权的一种新的引进方式，是在语音计算环境下，我认为是一种对原来的一种扩展，这种扩展的一个好处是说你好我好大家好，就是你得到好处了，你自然会给我付钱，如果你这个功能对你只是锦上添花，你可能就没有什么兴趣，如果对你是核心的业务，我们现在已经有一些成功的方式了，我们跟中国移动，还有很多方面有合作方式，这是一个。

　　第二一个是我们在一些特定的领域，比如说我们在手机做的，我们有讯飞语音输入法，我们跟中国移动合作的，这些特定的一些非常重要的方面，因为综合性太强，用的技术很多，其他家他只是用单方面一个技术，这个要综合用很多技术的时候，可能我们自己先做一个先导，同时我们在这个方面面向最终用户提供的东西，我也会有自己的商业模式，这两个东西是相辅相成的，我们有一方面是自己往前推进，把它用户体验做到最后，另外一方面我们把它提升以后的效果也提供给各个行业。就像我刚才讲到一点，我不知道你们注意到没有，有点类似于这个，就是说在有些环境下语音就可以独当一面了，但在有些环境下你语音必须跟其他配合起来，所以说以我为主的我一定把它做到底，但是需要我跟别人配合共同来打造商业生态系统的时候，我就希望跟别人来配合，大家强强联合来实现共赢，这是一方面。

　　问：在计算平台上，咱们是以自建为主还是租用为主?

　　胡郁：现在我们主要还是自建，我们在合肥有一个云计算中心，最核心的在那儿，但是我们在其他地方，现在出现还是IDC的系统，首先我们的规模还在扩张的过程中，所以说如果包括浪潮他们有一些，我觉得这都是可以谈的，有些合适的技术资源提供的话，我觉得完全有这种可能性。

　　问：那么您刚才提到咱们机器在训练的过程中，会用到一些不同的这种计算价格，特殊的计算价格，那咱们本身自有的一些基础的计算平台是怎么样配合?

　　胡郁：是这样的，你讲在训练的过程中对吧?

　　问：我就是说整个咱们现有的数据中心。

　　胡郁：我分两部分，在运算的这部分，其实我们都是基于架构的，架构的这个框架，现在大概有三千台服务器分布在合肥、广州和北京的，有我们自己的机房还有别人的机房，他们用利用一些开源和我们自建的平台构成我们的应用系统，在我们训练这部分大概有五百台服务器，他们是用加上GPU的组合的混合架构，然后共同来支撑我们训练的平台，那么这个训练里面就包括了合成、视频、自然元素处理有各个方面，如果细化来讲可能就涉及到很多技术细节，整体上架构是这样。

　　问：这个深度学习现在才火起来的原因是什么?然后还有一个就是讯飞超脑，您这边背后的模型，建设有哪些技术的因素?还有这个超脑跟大脑有些什么区别?

　　胡郁：你刚刚提的第一个问题是深度学习为什么能火起来?这个就是我刚刚讲的有一点，很多人对这个技术不了解的人他觉得很神奇，说我们又发明一个新的技术，其实在这个神经网络的，故事是这样的，在上个世纪九十年代以前，神经网络有一段时间非常热，大家认为它是一种非常神奇的一种技术，但是后面科学界又有另外一帮人，因为做机器学有很多的组合，有一个组织非常有名叫，这个人写了一个，而且他发明了一个算法叫SVM，如果大家搞科技的可能听说过这个，基于统计学的算法在当时90年代，数据量和运算量都比较小的时候，会证明是比神经网络要好，当时简单的神经网络，当时简单神经网络很难处理大的数据，但是其实神经网络所有的东西没变，包括现在被脸书雇佣的叫，你们可以去查一下，当时也是神经网络的一个专家学者，还有现在被谷歌雇佣的，他们原来的算法到现在基本上没变，他们原来构造的神经网络的构型到现在还在做，就是一个差别，就是把乘数变很多，然后把运算量变上去，关键数据，以前没有这个真实的数据。

　　我今天讲了一个概念叫联谊效应，你要通过应用把真实的数据输上来，然后再把它放到神经网络里面去训练，构成这个闭环，这个地方我顺便说一下，其实很多公司对大脑的理解是不一样的，很多公司的理解认为大脑就是DNA，我在这点上来讲我觉得这个是比较简单的一个理解，大脑远远比DNA要复杂，但我们讲的大脑是有商业上的一些宣传的意味。但是包括谷歌，我觉得大脑最重要的一个就是这个联系到超脑计划了，我觉得关键是看你要解决什么问题。比如说你计算机算得很快，或者是你储存很厉害，你可以得到它的这个大脑对不对?这个是一个商业上的一个作用。所以我觉得讯飞超脑最大的一个问题就在于我讯飞超脑是一个比较清晰的架构，第一个它有一个明确的目标，第二一个它有一个很清晰的实现的路径，第三个它有很明确的它用在什么地方，能解决什么样的问题，我觉得这个是有很清晰的定义的。

　　所以说在我的理解中，我具体解释一下这个问题，首先讯飞超脑计划的内涵很简单，就是要解决认知智能的问题，就是人的知识表达储存，在很多现在的所谓人工智能项目里边是不涉及到这个领域的，我刚刚提到比如说你下棋，你存棋谱存得快，这个跟人类的知识没有什么关系，跟地球月球它们之间有的是恒星，跟那个没什么太大关系。在自动驾驶汽车里面，那个就是个感知智能，你做那个传感器，经过一些算法，我能回避，我能够识别它是一个什么东西，这个跟知识表达也没有关。我觉得人脑真正它复杂，厉害的地方是在于它跟其他的东西认知方面，其实IBM是提过认知这个概念，我想你们都知道，所以这个是人类比较难的地方，这个有可能是因为人类大脑有神经元，才能够解决这个问题的一个根本作这儿，所以我觉得这点是清晰，就是我们内涵一定要解决认知智能。这个我们在863的项目，都是有相关性的，国家科技部已经注意到这个方面的东西，所以设了这么一个题目。

　　第二个方面就在实现方法上，你说我堆了好多机器，或者搞了很多内存计算量，或者用了DNA这个东西就等于一个大脑，我觉得这点可能说得更细一点，更细一点就是要借鉴现在生物和信息学的交叉，大脑储存的力量，他们这个十年的过程中会产生很多成果，但是这些成果会有些叫沿途下弹，我们可能知道人在脑袋构造上面一个，我刚刚提到的，他提到的一种图象识别的网络叫CNN，就是根据人脑的神经在图像处理上的一些特点。在这个方面我们还能够学到很多的新的知识，所以在这个方面在神经网络的优化方面，其实还要做很多的工作，而不是说现在把它的乘数加多以后它就一定能行，现在我们看到的，它解决认知智能是不是能解决?第二个要把数量做上去，这个大家都提到了，要把神经网络的数量做到一定的比例。但是第三个最重要的，你光把它的结构和数量搞清楚，这不是唯一的方法，因为人脑的神经元之间的传导，比如说知识语音在我们脑袋里面表示是连续空间的，还是分离的，还是说它跟图像是一起的，这个你不知道，所以我们第三个有个核心就是对人的语意的连续表达，一个句子来了，你一个词来了，它是连续分布还是离散分布，它们之间推理的关系怎么实现?用神经网络怎么实现，这一系列的东西要在这三个关键点上我们要有突破，但是从外延上来讲，我认为将来的人工智能的计算，感知智能和认知智能它最后都会合在一个脑子里面。

　　如果大家去看一些关于抑郁症的讨论，他说人脑其实是一个化石性的叠加，它有最简单的脑，也有外面的这个感知的脑，最后还有人理性的这方面的脑，它是一个组合性的，如果你真的讲大脑的外延，它既有计算能力又有感知能力又有认知能力，但是我觉得现在最需要突破的就是认知方面，所以我讲讯飞超脑，这个也解释了你说每一个公司对它的脑的区别，大脑的定义其实不太一样的，有的可能想的比较简单。

　　然后最后一个我觉得是讲它应用在什么方面，现在的工业代替一些体力劳动，体力劳动也需要感知智能，但是体力劳动不需要表达，但是脑力劳动，简单的脑力劳动者，我们现在其实做的工作，每天我们的生活就是你在做一些简单脑力劳动，你也在做一些高级的脑力劳动，比如说你们写的稿子那就是高级的脑力劳动，但是你说我听录音把它变成文字，就是简单的脑力劳动，我们希望把这个简单的脑力劳动，比如做一些摘要，把它能够用机器来替代，我觉得这个就能够比较明确的来讲出来它核心的差别。

　　问：那咱们讯飞超脑这个项目跟浪潮有什么深入的合作?或者浪潮参与什么?

　　胡郁：我们现在这样的，任何脑，我们讲的脑其实是有虚拟的，就是精神的和物质的两个方面，如果你要建一个超脑，我叫超脑计划的硬件平台，这个硬件平台需要什么样的架构，需要什么样才能够模拟脑子的东西，包括我们跟浪潮，就包括我们讲的IBM不也做了芯片吗?我们跟浪潮都有，但是我觉得这个还是在研究过程中，我们先可以用现有的超算直接上面去，但是人脑跟电脑一个最大的区别，有人统计过，要达到人脑的计算，现在电脑的功耗是人脑的几万倍对吧，你以后要使用它你耗能这么大是不行的，所以我期待在超级计算机方面那些人，围绕人工智能那个领域，我预计将来一定会有，因为现在美国也在做这个事情。

　　问：其实谈超脑计划，很多的时候其实是由互联网公司在去做类似这样的事情，我觉得可能有几方面的优势，数据源的获得，包括说是对于自己应用场景的实现，都有非常好的优势。那么比如说在您的这个研究中间，我是不是有可能会在数据源的方面要做一些什么样的探索，或者是说这种合并，跟别人去共享一些事情，才能够在视觉方面有更好的补充呢?

　　胡郁：我觉得我不知道你们注意到没有，互联网公司它其实是用互联网去改造很多不同的行业，它关键是互联网思维，我个人的意见我认为互联网公司跟互联网思维不是一个概念，互联网思维是说用互联网这种极低门槛的，人和人的信息流通和搜集的一种方式，它可以用在各个方面，但是互联网公司我更多的理解，互联网公司是说比如说有很多的领域，互联网公司可能不一定会做，比如说它有一些安全，或者有一些需要对价的方面，互联网觉得这个投入产出比较慢。那么我的理解是什么?我们一方面是我们现在自己做的互联网应用，比如说我刚才讲的讯飞语音书法法。另外一方面我们关键的我觉得有一点，我觉得非常重要，讯飞的参与生态系统就是跟各个行业，汽车，就以别人的成功和我们的成功共同的，这个里面是要做很多的基础工作的，在跟别人合作的过程中我们得到一些数据，并且跟别人配合来做。其实讯飞我有个观点，我不知道大家认不认同，讯飞的基因骨子里面是技术创新的基因，我们是认可这个，但是我们要学习互联网智能，但是是不是我们一定要变成一个互联网公司，我觉得这一点我是有自己的意见，而且我有一句，我对美国公司的一个判断，我认为美国公司好的不仅仅是互联网公司，美国的IBM，包括以前的，我不知道你们知不知道，在化学物理各个方面他们有全新的，我觉得美国公司最核心的成功的地方是他的技术创新，不管他是在互联网时代，还是以前的时代，还是将来的有可能一个新的时代，所以我觉得在你这个时代说你要学习这个时代的思维，就是互联网思维，但是技术创新的基因是我觉得在美国很多大的公司里面是不变的，这个是我想讲的一个重点。

　　问：我想问浪潮在这方面目前取得了哪些进展，或者说目前有哪些成果?

　　张清：浪潮这块跟语音应用中心这块，基于GPU这一块的话，我们跟奇虎，互联网公司奇虎在开展积极学习，基于聚类的这个应用算法来做以图搜图的应用，来做加速，那么后面我们还会跟他们在图像深度学习这块，基于CNN算法方面，现在目前开源的算法，只是一个单级卡的应用，我们会希望扩展到更多规模来处理更多的图片的智能搜索上去。实际上在深度学习，跟讯飞这一块开展语音深度学习，GPU的一个应用，采取DNA的训练，在跟讯飞一起从他的GPU小规模的应用的场景下面，能够扩展到更多GPU一个架构上来，帮他们解决应用扩展的一个问题。主要是这两个方面。

　　问：咱们除了提供一些基础设施，还包括一些科研?

　　张清：对，我们整个实验室会有部分的人员，会参与到具体的深度学习和基因学习应用这个团队中来，来跟用户一起开展相关的应用。

　　问：您能不能简单介绍一下咱们目前的团队。

　　张清：团队的话，我们整个实验室在做并行计算的有十多个人，然后在语音和图像深度学习这一块，我们有五到六个人组成的一个团队来开展这方面工作。

　　问：我想问一下胡总，您刚刚提到的神经网络的技术，您这个讯飞大脑是用的哪种技术?

　　胡郁：OK，是这样的，其实我们现在讯飞超脑，我讲它的内涵是一种，就是说它的内涵是说做认知的智能，这个认知智能现在在谷歌，包括脸书，包括微软他们都在尝试，现在已经被证实的，就是说我们讲的是其实DNA，我给大家解释一下这个名词，这个DNA它是一个角度看叫，这个相对以前叫NA和DNA，但是这个DNA它不是从构型的角度讲，如果从构型的角度讲它又分成CNA，还有各种NA，这就跟你讲的构型，其实我们在解决，我刚刚讲过了，我们主要解决自然元素处理和语音理解的这个核心的问题，现在在人脑的里面用语意到底是哪一种架构更适应于它，这些架构你产生哪一个架构都叫DNA，但是到底是CNA。他在神经领域能够留下名声，就是因为他当时发明了CNA，但是CNA现在也DNA化了，我这样讲大家明白了吧，CNA也变成多层的了，所以很多人都对他非常崇拜。

　　在认知神经网络方面，在认知计算这个方面，神经网络用哪一种构型能够突破这些经验，现在还不知道，大家都在试，每个人都在用CNA或者用什么NA都在试，也许我们现在在加拿大约克大学有一个研究院，刚开的，那么在这个研究院里面，江晖(音)教授就会带领大家去尝试不同的，也许会发明一种新的构型，也许在我们大脑人类图谱的过程中会有沿途下弹的结合，所以你现在让我说哪一个就能够成功，这是个研究的课题，但是我坚信将来肯定会有，有可能是先有一个架构，大家会发现这个CNA对语音也有帮助，这个也行。为什么呢?因为现在大家对大脑，为什么要研究大脑呢?因为现在大家也没搞清楚，这个大脑里面，大家已经知道它分块的，有一部分处理语言，有一部分处理图像，但是现在在学术理论上也有分歧，有一种认为它是同一架构，你后天用不同数据去训练它，所以不一样。还有一种理论，有一种架设就认为其实它天生就不一样，每个区域就不一样，你把它换过来是不行的，但是这个东西在层面到现在也没完全搞清楚。所以说这个就导致，其实我们有个计算机领域我们叫NA，在人的生物领域有个叫大脑图谱，它们两个是相互促进，这边搞清楚可能对这边有促进，这边要模仿一点反过来对它也有印证，是这么一个关系。

　　问：请问这个认知智能是不是必须要建立一个人脑的模仿?

　　胡郁：其实你这个提的问题非常好，我觉得认知智能我们一直都在做，是真的，认知智能我们一直都在做，早期用规则方法，什么叫规则方法?就是要解决这个问题，我们就是靠计算机写规则，人写好了然后他就去做。认知智能要解决，我们现在又想了一种方法，用数据驱动也可以去做，搞了很多数据去做自然源处理也没问题，表达知识。现在大家都觉得这两种方法都还有人在做，但是都面临一个瓶颈，所以说在对人脑深入理解的过程中不断有人就提出新的方法，说我们能不能利用现在正好神经网络也成功了，对人脑的认知又加深了，能不能把它们结合一下，看找到一种新的途径去解决认知智能的问题，肯定是现在认知智能并没有解决好，现在大家公认的是感知职能，就是说图像和语音识别大家觉得不错，可以用了，但是认知智能里面现在还没有看到说能有用的东西，所以说现在这个是一个突破的，大家攻击的一个重点。

　　问：对大脑的理解本身还是。

　　胡郁：很重要。特别是我们用的神经网络这种方法，以前在神经网络没有之前我们是用其他方法，也是用大数据，叫统计模式识别。

　　问：像认知智能，在这个智能语音方面主要的成果是什么?

　　胡郁：我觉得认知智能跟语音结合的一个方面，因为其实我刚才讲的感知智能跟认知智能其实它们的边界，坦白讲也不是一定要划分那么清楚，比如我讲翻译，翻译就是说我从一个语言变成另外一个语言，你可能认知我里面的东西，概念，然后才能把它翻译过去，所以语音对翻译也是认知智能。

　　问：主要还是语音理解。

　　胡郁：我给大家举一个简单的例子，你们就马上能明白认知智能跟我们统计的方法的差别，大家都知道计算机里面有一个非常著名的测试叫图灵测试，这个图灵测试讲白了就是聊天机器人，他跟你聊天，你要来判断这跟你聊天人是谁，他是机器，就是这么简单。我告诉你现在有一种做法是这么做的，我已经有全球所有人的聊天记录了，有问有答的，现在我要装一个机器人我就把这种全装到电脑里面去，把他的问句和答句一个都配对全存在那儿，现在你不是问他吗?你去问他，然后我到那个空里面去找一个，跟这个问句最接近的，而且他很聪明，他可以判断哪个问句，然后再把那个答案直接回给你了。比如说我说今天天气是蓝颜色的，你知道吗?地球上的天都是蓝颜色的。然后以前的人类的聊天中间可能有这个东西，他就把回答有些人说地球上的天是蓝色的，但火星上的天是红色的，他并不是真正有地球火星的概念，也没有蓝和红的概念，也没有知道火星上是因为大气什么原因变成红色，但他你感觉这个很智能。

　　前段时间有个报道，科技方面，就讲乌克兰的一个研究所，说他们通过了图灵测试，就是这个测试方法本身可以被(窃听)，这是它的一个最大的问题。

　　我再讲一个观点就是说这一种测试叫黑河测定，还有一种现在搞的叫白河测试，什么叫白河测试呢?告诉你一个是机器一个是人，大家摆在台面上，公开搞一个问题，你把它赢了这也是一种人工智能测试，这叫白河测试，所以说我觉得这就能看出来，如果我真正做一个真正能跟你聊天的，前段时间有个电影2013年的，能跟你谈恋爱有感情，你就要突破我讲的，但是并不能说给你感觉，他好像已经过了认知智能，这是有可能，所以说我们的挑战还很艰巨。

　　问：我想问一下您讯飞超脑的项目，有没有在大脑科学方面的一些合作?

　　胡郁：有，美国现在有一个计划，中国肯定不会闲着，国内国务院现在也在安排一个计划，因为就像基因计划一样，美国做了，我们肯定要跟进，那现在国内在脑科学方面有两个国家重点实验室，一个他们的负责人都是从科大毕业的，都是中科大校友，一个是中科院的在北京的脑科院研究中心。

　　问：是自动化所的吗?

　　胡郁：不是，是生物院所，院士叫陈林，你们可以去查一下。另外一个是北师大，他下面也有一个脑科学的国家重点实验室，他们是从教育的角度，科大讯飞现在跟北师大是战略合作伙伴，所以我们在这个方面会有对接。但是脑科学这个事我叫，他用的东西不一定直接把人脑模拟好了，但是它的沿途下弹的一些知识点，我觉得对我们这个信息领域其实非常有帮助，这个是值得关注的。

　　主持人：其他记者还有问题吗?如果没有的话，胡总下午还要赶飞机，这个采访就先到这儿。

　　胡郁：大家有什么问题也可以直接到微信，我的微信号可以给大家留下来。

　　问：是电脑吗?

　　胡郁：不是电脑。不过我告诉大家一个消息，就是我现在输入的语音已经足够可以训练我声音的系统。

　　问：能回答我们的问题?

　　胡郁：他能用我的声音来回答你的问题，他能不能模仿我自主有这个概念来回答我的问题那是下一步，就像林志玲在高德地图里面的声音一样，可以做到那个效果。

关注我们

实现语音操控 浪潮携手科大讯飞共成长

实现语音操控浪潮携手科大讯飞共成长