服务器 频道

NVIDIA发力巨量AI语言模型:让企业触手可及

  人工智能如何发展出像人类具备逻辑、意识和推理的认知能力,是人工智能研究一直在探索的方向。目前来看,通过大规模数据训练超大参数量的巨量模型,被认为是非常有希望实现通用人工智能的一个重要方向。

  自然语言处理是指能够理解人类语言的AI模型,在广泛应用的智能助手中,语言模型是其能够与人类交互的根本驱动因素之一,被誉为“人工智能皇冠上的明珠”。目前,全球知名的AI领先公司在巨量模型上都予以重兵投入,这其中当然不能少了NVIDIA。

  NVIDIA借助超大规模AI语言模型为全球企业赋能

  在GTC期间,NVIDIA推出了为训练具有数万亿参数的语言模型而优化的NVIDIA NeMo Megatron框架、为新领域和语言进行训练的可定制大型语言模型(LLM)Megatron 530B以及具有多GPU、多节点分布式推理功能的NVIDIA Triton推理服务器。

  这些工具与NVIDIA DGX系统相结合,提供了一个可部署到实际生产环境的企业级解决方案,以简化大型语言模型的开发和部署。

  NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示:“大型语言模型已被证明是灵活且功能强大的,无需专门的培训或监督,即可回答深层次领域问题,翻译语言,理解和总结文件,编写故事和计算程序。为新的语言和领域建立大型语言模型可能仍然是最大的超级计算的应用,现在这些功能对全球的企业也变得触手可及。”

  NVIDIA NeMo Megatron和Megatron 530B加速大型语言模型开发

  NVIDIA NeMo Megatron是在Megatron的基础上发展起来的开源项目。由NVIDIA研究人员主导,研究大型转换语言模型的高效训练。Megatron 530B是世界上最大的可定制语言模型。

  NeMo Megatron框架使企业能够克服训练复杂自然语言处理模型的挑战。经过优化,可以在NVIDIA DGX SuperPOD的大规模加速计算基础设施上进行扩展。

  NeMo Megatron通过数据处理库自动处理LLM训练的复杂性,这些数据处理库可以摄入、策划、组织和清理数据。利用先进的数据、张量和管道并行化技术,它能使大型语言模型的训练有效地分布在成千上万的GPU上。企业可以通过NeMo Megatron框架进一步训练它以服务新的领域和语言。

  NVIDIA Triton推理服务器助力实时大型语言模型推理

  此外,NVIDIA发布的最新NVIDIA Triton推理服务器中的多GPU、多节点特性,使大型语言模型推理工作负载能够实时在多个GPU和节点上扩展。这些模型需要的内存比单个GPU甚至是包含多个GPU的大型服务器所能提供的还要多,并且,实际应用对其推理实时性有着极高的要求。

  通过Triton推理服务器,Megatron 530B能够在两个NVIDIA DGX系统上运行,将处理时间从CPU服务器上的1分钟以上缩短到半秒,令实时应用部署大型语言模型成为可能。目前Capital One、Microsoft、Samsung Medison、Siemens Energy、Snap等25000多家客户都在使用该平台。

  不仅如此,NVIDIA还推出了NVIDIA A2 Tensor Core GPU,这是一款用于边缘AI推理的低功耗、小尺寸的加速器,其推理性能比CPU高出20倍。

  NVIDIA副总裁兼加速计算总经理Ian Buck表示:“NVIDIA AI推理平台正在推动各行各业的突破,包括医疗健康、金融服务、零售、制造和超级计算。无论是提供更智能的建议,发挥对话式AI的力量,还是推进科学发现,NVIDIA推理平台都能以简单易用的方式提供低延迟、高吞吐及多种性能组合的服务,为全球关键的AI新应用赋能。”

  关键的软件优化

  Triton 推理服务器的主要更新包括:

  ●Triton模型分析器:这款新工具可以自动化地从数百种组合中为AI模型选择最佳配置,以实现最优性能,同时确保应用程序所需的服务质量;

  ●多GPU多节点功能:这一新功能支持基于Transformer的大规模语言模型,例如Megatron 530B,在多个GPU和服务器节点上运行并提供实时推理性能,而不是在单个GPU上运行;

  ●RAPIDS FIL:这一针对随机森林和梯度提升决策树模型GPU或CPU推理的新后端为开发者使用Triton进行深度学习和传统机器学习提供了一个统一的部署引擎;

  ●Amazon SageMaker集成:这种无缝集成让客户能够在SageMaker(AWS完全托管的AI服务)中使用Triton轻松部署多框架的模型,并实现高推理性能;

  ●支持Arm CPU:除了NVIDIA GPU和x86 CPU外,Triton后端现在还支持在Arm CPU上优化AI推理工作负载;

  Triton支持在云、数据中心、企业边缘和嵌入式设备等环境中对GPU和CPU进行AI推理,并与AWS、Google Cloud、Microsoft Azure、阿里云PAI-EAS等平台集成。此外,NVIDIA AI Enterprise也集成了Triton。

  NVIDIA AI Enterprise是一款经NVIDIA优化、认证和支持的用于开发和部署AI的端到端软件套件,客户可利用它在本地数据中心和私有云的主流服务器上运行AI工作负载。

  除了Triton外,TensorRT现在还与TensorFlow和PyTorch集成,只需一行代码就能提供比框架内推理快3倍的性能。这使得开发人员采用极为简化的工作流程就可以体会TensorRT的强大功能。

  NVIDIA TensorRT 8.2是SDK的最新版本,可加速高性能的深度学习推理,在云端、本地或边缘提供高吞吐和低延迟。有了最新的性能优化,数十亿个参数的语言模型可实现实时运行。

  全球范围开发的大规模定制语言模型

  使用NVIDIA DGX SuperPOD构建大型复杂语言模型的早期客户包括SiDi、京东探索研究院和VinBrai。

  SiDi是巴西的一家大型AI研究和开发机构,已经采用三星虚拟助手,供全国2亿巴西葡萄牙语者使用。

  SiDi首席执行官John Yi表示:“SiDi团队在AI虚拟助理和聊天机器人开发方面拥有丰富的经验,此类开发既需要强大的AI性能,也需要经过训练并适应人类语言不断变化的细微差别的专用软件。NVIDIA DGX SuperPOD非常适合推动我们团队的先进工作,帮助我们为巴西的葡萄牙语者提供领先的AI服务。”

  京东探索研究院,是以供应链为基础的领先技术和服务提供商京东的研发部门,他们利用NVIDIA DGX SuperPOD开发NLP,应用于智能客户服务、智能零售、智能物流、物联网、医疗健康等领域。

  VinBrain是越南的医疗健康AI公司,他们使用DGX SuperPOD为100家医院的放射科医生和远程医疗医生开发和部署了一种临床语言模型。在这些医院,已有600多名医疗健康从业者使用该模型。

  写在最后,NVIDIA正借助超大规模AI语言模型为全球企业赋能,得益于NVIDIA在人工智能领域深厚的积累和不断的探索实践。NVIDIA一直活跃在AI前沿方向,在异构加速计算、深度学习框架、AI算法等领域取得了一定的成绩。未来,NVIDIA将持续推动创新企业及个人开发者基于大模型构建智能化水平更高的场景应用,赋能实体经济智能化升级,促进经济高质量发展。

0
相关文章