近日,NVIDIA发布了用于生成交互式AI虚拟形象的技术平台——NVIDIA Omniverse Avatar。
Omniverse Avatar能够连接NVIDIA在语音AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术。在该平台上创建的虚拟形象是具有光线追踪3D图像效果的交互式角色,可以看到、说话、谈论各种主题,以及合理地理解表达意图。
Omniverse Avatar为AI助手的创建开辟了道路,而且可以根据各个行业的需求轻松定制。AI助手可以帮助处理数十亿次日常客户服务互动,比如餐厅订单,银行交易,个人预约和预订等,带来更多商机并提升客户满意度。
NVIDIA创始人兼首席执行官黄仁勋表示:“智能虚拟助手的前景一片光明。Omniverse Avatar将我们的基础图像、模拟和AI技术结合在一起,打造出一些有史以来最复杂的实时应用。协作机器人和虚拟助手的案例令人难以置信,影响深远。”
Omniverse Avatar是用于3D工作流程的虚拟世界模拟和协作平台——NVIDIA Omniverse的一部分,Omniverse公测版用户现已超过7万人。
在NVIDIA GTC主题演讲中,黄仁勋分享了使用Omniverse Avatar的多个例子,包括用于客户支持的Project Tokkio、用于永久在线车载智能服务的NVIDIA DRIVE Concierge以及用于视频会议的Project Maxine。
在第一个Project Tokkio演示中,黄仁勋展示了NVIDIA的同事们与一个黄仁勋的卡通虚拟形象进行互动——就生物学和气候科学等话题开展对话。
在第二个Project Tokkio演示中,黄仁勋着重介绍了餐厅自助服务亭中的一个客户服务虚拟形象。演示中,有两名顾客正在订购素食汉堡、薯条和饮料,该虚拟形象看到了他们、与他们交谈并理解了他们。这些演示由NVIDIA AI软件和目前全球最大的可定制语言模型——Megatron 530B驱动。
在DRIVE Concierge AI平台演示中,中央仪表盘屏幕上的数字助理帮助驾驶者选择了最佳驾驶模式以准时到达目的地,然后按照驾驶者的要求,设置在汽车续航里程下降到100英里以下时进行提醒。
另外,黄仁勋还展示了Project Maxine如何为虚拟协作和内容创作应用增加最先进的视频和音频功能。演示中,一个讲英语的人在嘈杂的咖啡馆里进行视频通话,但是其他人可以清楚地听到她所说的话,没有背景噪音。当她讲话时,她的话被实时转录并翻译成德语、法语和西班牙语,并且声音和语调与原话完全相同。
Omniverse Avatar主要组成部分
Omniverse Avatar 所使用的语音AI、计算机视觉、自然语言理解、推荐引擎、面部动画和图像元素,通过以下技术实现:
● 其语音识别基于NVIDIA Riva。这个软件开发工具包可以识别多种语言的语音。Riva还可通过文本语音转换功能生成接近真人的语音反馈。
● 其自然语言理解基于Megatron 530B大型语言模型。该模型可以识别、理解和生成人类语言。Megatron 530B是一个预训练模型,它可以在很少或没有训练的情况下完成句子、回答主题广泛的问题、总结长而复杂的故事、翻译成其他语言,并应对许多它未接受过专门训练的情景。
● 其推荐引擎由NVIDIA Merlin提供。该框架使企业可以建立能够处理大量数据的深度学习推荐系统,以提出更明智的建议。
● 其感知功能来自用于视频分析的计算机视觉框架——NVIDIA Metropolis。
● 其虚拟形象动画由AI赋能的2D和3D面部动画和渲染技术——NVIDIA Video2Face和Audio2Face™驱动。
这些技术被集成在一个应用,并使用NVIDIA统一计算框架进行实时处理。这些技术被打包成可扩展、自定义微服务后,能够通过NVIDIA Fleet Command在多个地点安全地部署、管理和协调。