沉下心俯下身炼就AI生态圈（技术篇）-服务器专区

沉下心俯下身炼就AI生态圈（技术篇）

作者：李佳惠编辑：李佳惠 2017-12-21 14:02 IT168网站原创

　　【IT168 评论】人工智能是个“大领域”，涵盖了撬动产业革命的众多技术和算法。在不久之前小编就曾在《完整产业链才是AI时代脱颖而出的硬道理》一文中为大家简单介绍过人工智能的产业链结构，并且具体分析了其中的基础层部分，今天接着为大家介绍产业链中的核心部分——技术层。

　　技术层是人工智能发展的核心，对应用层的产品智能化程度起到决定性作用。

　　在上一次的介绍中，已经为大家简单的阐述了技术层的基本构成。技术层面，包括通用技术，就是我们常说的语音识别、图像识别、人脸识别等;算法，包括机器学习、深度学习、增强学习等;底层框架，包括Tensor Flow、Caffe、Torch等。

　　大大小小的人工智能如火如荼地展开，逐渐渗透到越来越多的行业当中。而语音识别是人工智能发展最早、率先实现商业化的技术之一，加上深度学习的推进，语音识别无疑是打造良好交互体验的重要前提。

　　在国内的计算机视觉领域，动静态图像识别和人脸识别是主要的研究方向：

　　图像识别，是计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。而人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。

　　其中，既有像腾讯、蚂蚁金服、百度等基于社交、搜索的互联网公司，也有微软亚洲研究院、Intel中国研究院这类传统硬件与技术服务商。通用识别率方面，各企业的成绩基本维持在95%左右，其真正的差异化在于对垂直领域的定制化开发。

　　算法突破是AI竞争力的催化剂

　　实现人工智能的核心之一是算法，它将成为未来国内人工智能行业最大的竞争门槛。

　　就在近期，技术层也有了新突破。谷歌的DeepMind团队的一篇论文中，讲述了新版程序

　　AlphaGoZero可以从空白的状态学起，在无任何人类输入的条件下，迅速自学围棋，并以100:0的战绩击败“前辈”AlphaGo，只用了3天的时间，它就掌握了围棋的下法，还发明了更好地棋步。

人工智能生态圈炼成记之技术篇

　　现如今做人工智能不谈深度学习、机器学习、增强学习好像就意味着没有真正在做人工智能。那么到底应该怎么理解这些算法呢?

　　机器学习，简单地说就是对能通过经验自动改进的计算机算法的研究，用数据或是以往的经验来优化计算机程序的性能标准。

　　而深度学习则是一种特殊的机器学习其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。

　　增强学习又叫做强化学习，是近年来机器学习和智能控制领域的主要方法之一。增强学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。

　　在未来竞争的重点领域，这三个方面算法的竞争将进入白热化阶段。而正是算法层面的突破造就了国内众多企业在图像识别和计算机视觉领域取得了突破性进展和国际一线的技术水平。

　　但就国内的人工智能算法来说，工程学算法虽已经取得阶段性突破，但基于认知方面的算法水平还亟待提高。

　　不管是哪一家的人工智能研究都会遇到巨大的计算和算法方面的需求，任何一家都不能够做到在封闭的环境内取得一些阶段性的突破的可能。

　　而到目前，我们可以看到谷歌、微软、Facebook和雅虎等视人工智能为未来核心竞争力的优异企业都先后开放了自身的人工智能系统。还有腾讯、阿里巴巴、百度和科大讯飞等巨头都在人工智能领域的不同的维度和空间开放自身的人工智能系统。

　　但是，开源并不代表着核心技术和算法的完全出让，底层系统的开源将会让更多的企业从不同维度参与进来，人工智能领域产品的迭代就会更快，同时，共同的试错对于整个大的环境来说，将会形成一个良好的平台，不断推动产业的前进，也确保开放企业能够与行业最新的前沿的技术同步。

　　而在未来，随着专用领域应用的普及和通用技术应用需求的增强，这种开放性还会不断地加大，开源将成为一种趋势。

　　万丈高楼平地起基础才是最好的利刃

　　人工智能的热潮袭来，许多的企业都投入大量的人力、物力进行研发，在其底层框架方面，有许多也选择进行开源，从而扩大影响力，下面为大家介绍几款具有代表性的底层框架。

　　TensorFlow

　　TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，于2015年推出，是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。它依托谷歌强大的研发实力和业界影响力，社区活跃，文档丰富，生态完备，还配备了网络结构可视化工具TensorBoard。

人工智能生态圈炼成记之技术篇

　　TensorFlow可被用于语音识别或图像识别等多项机器、深度学习领域，对2011年开发的深度学习基础架构DistBelief进行了各方面的改进，它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。

　　TensorFlow是目前关注度最高的深度学习框架。TensorFlow的定位不局限于深度学习，而是面向使用计算图的所有机器学习任务，因而架构庞杂、概念繁多，有一定的学习门槛。它表达了高层次的机器学习计算，大幅简化了第一代系统，并且具备更好的灵活性和可延展性。

　　从目前的文档看，TensorFlow支持CNN、RNN和LSTM算法，这都是目前在Image，Speech和NLP上比较流行的深度神经网络模型。

　　Caffe

　　Caffe的全称应该是Convolutional Architecture for Fast Feature Embedding，它是一个清晰、高效的深度学习框架，它是开源的，核心语言是C++，支持命令行、Python和Matlab接口，既可以在CPU上运行也可以在GPU上运行。

　　Caffe专精于计算机视觉领域，易上手，速度快，代码质量较高，运行稳定，是第一个主流的工业级深度学习框架。Caffe有一个很大的优势是社区积累了大量已经训练好的模型，方便开发者共享复用。Caffe的网络结构基于层，灵活性较差，新增功能麻烦，目前项目已经很少更新。

　　Caffe的亮点是：

　　(1)、模块化：Caffe从一开始就设计得尽可能模块化，允许对新数据格式、网络层和损失函数进行扩展。

　　(2)、表示和实现分离：Caffe的模型(model)定义是用Protocol Buffer语言写进配置文件的。以任意有向无环图的形式，Caffe支持网络架构。Caffe会根据网络的需要来正确占用内存。通过一个函数调用，实现CPU和GPU之间的切换。

　　(3)、测试覆盖：在Caffe中，每一个单一的模块都对应一个测试。

　　(4)、Python和Matlab接口：同时提供Python和Matlab接口。

　　(5)、预训练参考模型：针对视觉项目，Caffe提供了一些参考模型，这些模型仅应用在学术和非商业领域，它们的license不是BSD。

　　Torch

　　Torch 的核心是流行的神经网络，它使用简单的优化库，同时具有最大的灵活性，实现复杂的神经网络的拓扑结构。你可以通过CPU和GPU等有效方式，建立神经网络和并行任意图。

　　而PyTorch 是Torch7 团队开发的，从它的名字就可以看出，其与Torch 的不同之处在于PyTorch 使用了Python 作为开发语言。所谓“Python first”，同样说明它是一个以Python 优先的深度学习框架，不仅能够实现强大的GPU 加速，同时还支持动态神经网络，这是现在很多主流框架比如Tensorflow 等都不支持的。

　　PyTorch 既可以看做加入了GPU 支持的numpy，同时也可以看成一个拥有自动求导功能的强大的深度神经网络，除了Facebook 之外，它还已经被Twitter、CMU 和Salesforce 等机构采用。　　

人工智能生态圈炼成记之技术篇

　　技术是人工智能产业发展的必备要素，而基础技术的成熟又带来了存储容量和机器学习等人工智能技术的提升，因此，许多企业在开展研发的同时，通过收购等方式将技术优势拥入怀中，形成技术壁垒。

　　除此之外，目前专用化领域的场景应用仍是目前研发和投资的核心，但随着技术、数据的积累演化以及超算平台的应用，由专用化领域的场景应用向语音、视觉等领域的通用化解决方案应该在未来 20 年内成为发展的主流。

　　未来，随着国内人工智能行业的产业分工和企业竞争日渐明晰，应更关注国内的人工智能产业链的技术层方面的研发，俯下身来炼就完整的人工智能生态圈。