登录 / 注册
IT168服务器频道
IT168首页 > 服务器 > 服务器资讯 > 正文

英特尔人工智能:为工作而生的工具

2018-08-17 09:36    it168网站 原创  作者: 英特尔Naveen Rao 编辑: 陶然

  对于复杂(或多样化)的人工智能部署,异构硬件架构如何打破人工智能模型和现实部署之间的障碍。

  这是人工智能 (AI) 发展中令人难以置信的激动时刻。以前,只有在某一领域拥有深厚专业知识的公司才有可能使用人工智能。短短几年后,我们看到世界各地的英特尔客户使用人工智能在各种用例和环境中取得了变革性的成功。这是由于软件工具、生态系统和硬件能力都日渐成熟。

  客户们发现,没有单一的“最佳”硬件来运行各种各样的人工智能应用程序,因为没有单一类型的人工智能。应用程序的限制决定了从数据中心到边缘到设备所需硬件的能力,这再次强调了对更多样化的硬件产品组合的需求。它们涵盖各种各样的应用程序,不管出现在何处,都将为英特尔客户带来最高回报。

  从擅长对大量非结构化语音和文本数据进行训练和推理的英特尔至强可扩展处理器,到为实时推理提供出色吞吐量和低延迟的灵活英特尔FPGA,再到为摄像头提供超低功耗推理的英特尔Movidius视觉处理单元 (vpu),以及即将推出的英特尔Nervana神经网络处理器(英特尔Nervana NNP)。英特尔Nervana NNP从头开始全新打造,目标是加快深度学习速度,英特尔提供了一个深度硅芯片基础,专为启用数据中心创新而定制,让数据能够实时存在于从端点设备到边缘,再到数据中心和云。

  我们正在对软件进行大量投资,以让这些功能可在我们的产品组合之间移植,从而将人工智能带到各种应用程序中,而不受任何限制。像 nGraph这样的开源项目,降低了跨不同硬件平台对不同深度学习框架(例如 TensorFlow、MXNet和 PyTorch等)进行优化的难度。这为开发人员提供了向其客户提供最佳体验的选择。

  在最近的数据中心创新峰会上,我有机会参与讨论了英特尔针对各种应用的全面采用英特尔至强可扩展处理器的高级深度学习训练

  挑战:通过自动分析显微镜图像中成千上万个不同的特征,发现新的治疗方法,这些图像尺寸远大于传统深度学习数据集中的图像尺寸。

  解决方案:利用基于英特尔至强可扩展处理器平台的大内存容量和高性能计算能力。

  高内涵筛选是药物发现的重要工具。这是一项极具挑战性且耗时的工作,需要从图像中提取成千上万的预定义特征。

  今天,在我们以数据为中心的创新峰会上,我们描述了诺华如何与英特尔合作,利用深度学习来加快细胞培养显微图像的分析,以研究各种治疗的效果。由于使用了完整的显微镜图像,本评估中的图像尺寸比普通深度学习基准中使用的图像尺寸大得多。例如,比 ImageNet数据集中的图像尺寸大超出 26 倍。

  尽管由于训练模型中的参数数量以及所用图像的尺寸和数量,提出了计算要求和内存需求,但团队使用了英特尔至强金牌 6148 处理器、英特尔Omni-Path 架构和 TensorFlow 1.7.0 搭建的系统进行训练,因而训练时间节省了 20 倍1。英特尔硬件可支持卓越的内存容量,支持每秒超过 120 张 390 万像素的图像。

  正如此例和其他例子所展示的那样,CPU 架构更适合满足很多现实世界深度学习应用的需求。此外,源源不断的投资正在涌入,旨在增强基于英特尔至强可扩展处理器的平台性能,随着平台发布,很多热门框架的推理速度都有提升。而随着我们新一代英特尔至强处理器(代号为 Cascade Lake)的推出,推理速度更提升至 11 倍。未来对英特尔Optane DC 持久内存的平台支持,将扩展 CPU 附近的内存容量,以支持对更大数据集的训练。

  在创新峰会上,我们还宣布了英特尔DL Boost,这是一套旨在加快人工智能深入学习速度的处理器技术。Cascade Lake 还将采用矢量神经网络指令集 (VNNI),该指令集在一条指令中完成了之前采用的三条指令。Cooper Lake 是继 Cascade Lake 后的英特尔至强可扩展处理器,将为英特尔DL Boost 增加对 bfloat 16 的支持,进一步提升了训练性能。

  我们还致力于让英特尔至强处理器更容易让客户进行满堆栈部署,就像在英特尔Select 解决方案中所做的那样。Apache Spark上针对 BigDL 的全新英特尔Select 解决方案配置是我们与阿里巴巴、亚马逊、中国电信、微软和 Telefonica 等行业领先企业合作的结晶,也是我们从数百次部署 BigDL 中获得的重要经验,旨在提供一种配置,让客户能够为现有数据湖快速部署人工智能功能。该解决方案包括硬件和软件组件,是我们第一个面向人工智能的英特尔Select 解决方案,2018 年下半年由我们的合作伙伴面向市场发售。

  英特尔FPGA 实时深度学习推理

  挑战:开发一个实时深度学习平台,可以灵活地跨多个 Microsoft 用例进行扩展。

  解决方案:利用英特尔Arria FPGA 的微软 Project Brainwave 硬件架构。

  微软 Project Brainwave 是一个深度学习加速平台,是基于适应性强、省电、高通量的英特尔 FPGA 之上构建的。Project Brainwave 凭借极具竞争力的成本和极低延迟来实现实时推理功能。在不断发展的人工智能环境中,FPGA 能够重新编程以获得最高性能,是很多深度学习应用的重要工具,包括从搜索、语音识别到视频内容分析等应用。

  微软最近宣布,Azure 机器学习加速硬件由 Project Brainwave 提供支持。这项服务让开发人员和数据科学家能够在 Azure 和云边缘跨各类实时应用程序运行实时模型,包括制造业、零售业和医疗保健领域的实时模型。

  微软还将 Project Brainwave 应用于新的必应搜索功能,以加快搜索结果并呈现智能化答案。使用机器学习和阅读理解,必应能快速提供智能化答案,以帮助用户更快地找到他们想寻找的答案,而不是提供链接列表来让用户手动检查答案。英特尔 FPGA 能让必应将模型延迟时间缩短 10 倍以上,同时将模型尺寸增加 10 倍。

  采用英特尔Movidius myria视觉处理单元,让视觉智能取得领先优势

  挑战:自动捕捉和策划家人、朋友和宠物的动感照片,由边缘设备自身完成视觉处理。

  解决方案:Google Clips无线智能相机,采用英特尔Movidius Myriad 2 视觉处理单元 (VPU)。

  英特尔Movidius 提供低功耗、高性能的 VPU,帮助谷歌实现了其 Google Clips 相机的构想。借助英特尔Movidius Myriad 2 VPU,可以直接在相机上实时运行高级机器学习算法。这让 Google 能够改善相机功能,降低功耗,并支持离线使用。

  英特尔Movidius VPU 的目标应用包括嵌入式深度神经网络、姿态估计、3D 深度感测和手势/眼睛跟踪,随着“相机互联网”的爆发式增长,它为创新的新应用提供了各项功能,同时通过让边缘设备本身保留这些人工智能应用,以达到对隐私和安全策略的遵守。上述设备以及未来的英特尔Movidius VPU 将继续在视频分析、机器人和增强现实等应用领域带来价值。

  采用英特尔Nervana神经网络处理器的新一代训练和推理

  挑战:利用全新构建的架构绕过当前的系统障碍,支持新一代突破性深度学习解决方案。

  解决方案:英特尔Nervana 神经网络处理器,2019 年上市。

  随着人工智能的发展,模型越来越复杂,对内存的需求也越来越大。支持深度学习的未来,意味着要克服阻碍我们前进的内存障碍。当前的解决方案无法利用所有可用的计算机,就像缺乏汽油的发动机一样。正因为如此,数据科学家和研究人员越来越认识到,需要有专门为深度学习训练和推理而设计的硅芯片。打破这种内存障碍推动我们使用采纳英特尔Nervana神经网络处理器的全新方法,该处理器是专门为支持深度学习而设计和构建的。

  英特尔Nervana NNP 将内存放在第一位,它采用了大量高带宽内存和 SRAM,更接近实际进行计算的位置。这意味着可以在芯片上存储更多的模型参数,以显著节省功耗并提升性能。它支持大多数深度学习基元,同时让核心硬件组件尽可能高效,确保没有任何额外项(例如图形)会从深度学习应用中窃取内存。此外,英特尔Nervana NNP 的高速片内和片外互连支持大规模双向数据传输,这样可以在多个机箱之间连接多个处理器,以充当一个更大的高效芯片来容纳更大的模型,以获得更深入的洞察。

  英特尔与 Lake Crest 软件开发车辆 (SDV) 方面的主要客户合作,进行 NNP 开发、测试和反馈。当我们准备在 2019 年发售我们的第一个商业产品时,以上都被纳入进来。随着人工智能领域的进一步发展,我迫不及待地想从这些突破性芯片中看到我们客户的创新和见解。

  简化异构部署和加速人工智能创新的软件

  框架和库对于推动人工智能的发展至关重要。离开软件,硬件就没有任何东西可结合以产生最大的影响。我们在英特尔的目标利用稳健的多架构方法,将所有人工智能都集成到一个软件保护伞下。这就是为什么像我们的开源 nGraph 编译器这样的计划如此重要的缘故。您的时间不应该花在重新发明工具上。

  在英特尔,我们认为我们有责任优化软件和提供工具,这些工具可以让我们的硬件发挥最佳性能,并简化模型和现实之间的流程。利用我们的开源性能库,从深度学习的直接优化中获得更多好处;探索我们的开源深度学习编译器 nGraph,它能够跨多个框架和架构运行训练和推理;使用 OpenVINO 快速优化预训练模型,并将视频神经网络部署到各种硬件上;并且利用 BigDL 来驾驭大量数据,BigDL 是我们针对 Apache Spark 和 Hadoop 群集的分布式深度学习库。

  提供针对 Data Era 优化的客户解决方案

  英特尔正在帮助客户更好地处理每天生成的大量数据并从中获得价值。我们致力于提供全面的硬件和工具组合,以实现任何人工智能愿景。

  现实世界中人工智能的复杂性要求将正确的硬件和软件结合起来,以便让应用能够得以实现。英特尔在一个内聚的、多功能的、众所周知的技术生态系统中提供这些工具。

关键字: 英特尔
  • IT168企业级IT168企业级
  • IT168文库IT168文库

扫一扫关注

行车视线文章推荐

首页 评论 返回顶部