服务器 频道

旷视科技在AI视觉领域的探索:变革与演进

  【IT168 评论】目前,人工智能的研究涵盖了语言识别、图像识别、自然语言处理、机器人和专家系统等多个技术领域,所涉及的学科也十分广泛,对人才、专业知识甚至软硬件资源的要求都非常高。因此,对于希望在人工智能领域一展身手的创业公司来说,“聚焦”二字至少应该提三遍。

  这是旷视科技(Face++)首席科学家孙剑在首届人工智能计算大会(AICC 2017)上,首先向我们传达的观点。而作为一家人工智能创业公司,旷视科技也正身体力行地贯彻着这一理念。

  自成立以来,旷视科技一直全力聚焦在计算机视觉领域,在人脸、文字、证件及通用图像识别,身份验证和智能安防等领域均有优秀的解决方案及应用产品。

旷视在AI视觉领域的探索:变革与演进
▲旷视科技(Face++)首席科学家孙剑在AICC大会上发表主题演讲

  计算的变革与复兴

  随着人工智能的发展,人们对计算力的需求正不断上升,传统的冯诺依曼体系计算机已无法满足这个需求。人类大脑的计算方式是高度并行化的,这一特质激发了大家从信息处理角度对人脑神经元网络进行抽象,建立人工神经网络模型。

  人工神经网络中间的激活向量,模拟人脑中的神经元计算,把前一层神经元信息融合,以此完成一个简单的线性和非线性运算,这就是神经网络中最基本的计算。而在整个神经网络中,把激活向量做变换,将这个计算过程重复多次,形成非线性高维映射,这就是目前神经网络的基本架构。

  人工神经网络的兴起,再加上当今如GPU等硬件资源的升级,我们所掌握的计算力正进入一个飞速发展的阶段。而计算方式的变化也对人工智能产生了巨大的影响,内存和处理之间的高吞吐量,以及将学习和训练整合在同一个框架中,很大程度上简化了计算,提高了效率。

  孙剑在AICC大会主题演讲中指出:“Face++作为一家创业公司,也很早就意识到这种计算变革会发生,所以我们自己构建了一个庞大的GPU集群和一个深度学习框架——Brain++,除了深度学习的核心训练引擎之外,还有从数据如何流入、GPU管理、模型发布的整套流水线过程。这些成果,构成了旷视科技内部计算机视觉研究的核心引擎。”

旷视在AI视觉领域的探索:变革与演进

  ShuffleNet:专为移动端低功耗设备打造的高效卷积模型结构

  卷积神经网络是现代人工智能视觉系统的核心部分,近几年也有很多关于卷积模型的研究,产生了如VGG、ResNet、Xception和ResNeXt等性能优异的网络结构,使计算机能够在多个视觉任务上超过人类。然而,这些优秀的模型往往拥有巨大的计算复杂度(数十亿次浮点操作,甚至更多)。这就导致此类模型只能用于高性能服务器集群,对于很多移动端应用(通常最多容许数百万至数千万次浮点操作)则无能为力。

  为解决这一难题,旷视科技的人工智能研究团队提出了一种更为高效的卷积模型结构——ShuffleNet,在大幅降低模型计算复杂度的同时仍然保持了较高的识别精度,并在多个性能指标上均显著超过了同类方法。该结构继承了该结构继承了“残差网络”(ResNet)的设计思想,并在此基础上做了一系列改进来提升模型的效率。

  基于此项成果,旷视科技又推出了FPGA智能相机MegEye,可以在成本二三十美元的芯片机上完成实时高清每帧人脸检测,能够更好地抓取正脸,这对于人脸识别也是非常重要的。

  ShuffleNet网络结构可以说很好地提升了终端计算能力,而通过将终端计算与云计算相结合,可以继而为智慧城市提供计算力,完善智慧城市的建设。孙剑举例道:“我们可以将这样的能力用在安防领域的视频结构化,实时监测人、车,了解其属性和运动轨迹,同样也可以获得实时的路况信息。”

  目前,旷视科技在终端计算方面的工作涉及物联网、移动计算、机器人等行业,通过与云端结合,探索更多的应用方向与场景。

旷视在AI视觉领域的探索:变革与演进

  关于AICC人工智能计算大会:

  人工智能计算大会(AI Computing Conference,简称AICC)是由中国工程院信息与电子工程学部主办、浪潮集团承办,旨在围绕AI当下需求及未来发展,从计算创新着眼,联合从事AI计算及应用的公司、用户、专家、开发者共同打造探讨促进AI计算的交流合作平台,推动AI产业的可持续发展。

0
相关文章