服务器 频道

“小应用”背后的“大改变” 爱奇艺赋能流媒体播放服务

  热门视频里,“弹幕盖脸”几乎是必然事件,然而有一个地方看视频,你会发现密密麻麻的弹幕都绕开主角飘过,这个地方就是爱奇艺。

  对于大家观看视频时喜闻乐见的弹幕,爱奇艺提供了蒙版弹幕服务,可以让用户实现“弹幕穿人过,爱豆心中坐”。那么,如此用心的“小应用”背后究竟是如何实现的呢?让我们一探究竟。

  人工智能需要丰富的计算资源

  随着人工智能技术在爱奇艺业务线的广泛应用,人工智能算法在云端的部署对包括CPU与GPU在内的各种计算资源的需求也在飞速增长。提高人工智能算法部署效率,让人工智能发挥真正的生产力,帮助业务团队快速落地应用和更好的服务,是爱奇艺技术产品团队共同努力的目标。

  大量的人工智能算法训练及推理服务需求,会使云端GPU资源经常处于短缺状态;使用CPU进行的推理服务往往由于性能的原因而无法满足服务指标和业务需求。

  在此背景下,爱奇艺尝试进行基于CPU的人工智能推理服务加速和优化,通过提升推理服务在CPU上的性能,完成部分服务从GPU到CPU的迁移,可以充分利用CPU服务器资源,同时节省GPU计算资源,提升用户体验。

  爱奇艺基于英特尔OpenVINO工具包(主要用于将计算机图形和人工智能中的神经网络技术整合到前沿的视觉应用中),从计算机视觉的角度与AI结合,领先应用落地流媒体,并且已在爱奇艺完成数十个应用的CPU优化,基于CPU进行人工智能服务的优化和部署,数千核CPU服务的部署,等量节省一百多个GPU资源,可提升CPU上人工智能服务性能最高可达到10倍以上,降低深度学习云平台超过50%成本,提高视频行业竞争力。

  优化的重要性

  据爱奇艺高级总监吴杰珂介绍,爱奇艺在CPU上进行深度学习推理服务优化的方法,可以分为系统级、应用级、算法级,每一级也有对应的性能分析工具:

爱奇艺高级总监吴杰珂

  系统级优化主要从硬件和平台的角度进行计算加速,方法主要包括基于扩展指令集的SIMD加速、基于OMP的数学库并行计算加速、以及硬件厂商提供的深度学习加速SDK等方法;

  应用级优化主要从特定应用和服务的角度进行流水和并发的优化。通常的深度学习服务不仅仅包含推理,还有数据的预处理、后处理,网络的请求响应等环节,良好的并发设计可以有效的提升服务端到端的性能;

  算法级优化主要针对深度学习模型本身,利用诸如超参数设置、网络结构裁剪、量化等方法来减小模型大小和计算量,从而加速推理过程。

  线上的实时业务、以及按需的及时生产,这些大量的需求只有在优化后才能得到满足。以蒙版弹幕为例,目前这个AI服务已经有不少剧目在试运行了,但如果片源发生变化,就需要重新生产。能及时生产,就能及时更新,但这个“及时更新”意味着大量的AI模型推理需求。

  蒙版弹幕是通过机器视觉分析出剧集中主要角色的轮廓,并让弹幕绕过人物,可以让观者的体验更好,其核心是图像语义分割,用OpenVINO优化之后,推理处理能力大约能有3~4倍的提升,这样生产能力就得到了大幅提高,更新的频率就可以更快,能更加及时地为用户提供有蒙版弹幕功能的剧目,爱奇艺高级总监刘俊晖说道。

爱奇艺高级总监刘俊晖

  不仅如此,爱奇艺的另一个用心“小应用”也是利用CPU资源来实现的,那就是AI雷达。AI雷达这个服务是从TV端开始上线的,用户可随时在剧集中开启,通过智能识别可以识TA、识物、识音乐,用户还能即时扫码解锁产品信息并可实现购买行为等。AI雷达刚开始时调用量就还不错,随着用户使用量的增加,峰值服务调用量陆续增加到了3倍。由于AI雷达是实时请求的服务,需要让TV用户快速得到反馈结果,所以需要按全量部署资源。

  如果服务部署在GPU平台上,协调大量的GPU资源用于满足峰值服务调用会产生很大的浪费,因为这些GPU的利用率在非峰值期间会很低,且GPU板卡价格很高。对比的话,CPU则相对容易进行负载平衡调度,价格也比GPU低许多。

  唯一的问题就是没有优化的服务在CPU上的延时性能没法满足需求。在使用了英特尔的OpenVINO进行优化之后,AI雷达服务中最核心的人脸检测模型和人脸识别模型,延时性能上可以有大约6~8倍的提升,使得AI雷达部署在CPU上成为可能。

  强强联合 爱奇艺赋能流媒体播放服务

  在合作方面,爱奇艺与英特尔的合作从一开始就是比较深入的,合作过程中不断更进一步。英特尔在人工智能领域提供了许多硬件加速方案,有CPU、FPGA、Movidius等多种,而爱奇艺与英特尔的合作目前已经覆盖所有这些硬件加速方案。

  首先,以推理最常使用的CPU方案为例,为了更好地利用最新CPU的特性,爱奇艺会以最快的速度引入英特尔最新的Cascade Lake CPU,该平台支持的VNNI指令集,可以专门对视频推理实现加速服务,期望会比原来有更大的性能提高,使得更多类型的模型可以跑在CPU上面。另外,爱奇艺也正在评估傲腾的存储功能,希望大幅降低存储类型应用的成本。

  其次,异构资源合作扩展到了FPGA。爱奇艺在使用CPU加速人工智能推理服务后不久,便开始评估在英特尔的FPGA上加速人工智能推理服务,现在已经有一些模型在英特尔FPGA上跑起来了。

  写在最后,目前,爱奇艺已完成开发的多种性能自动化评估工具、以及延时与吞吐最优部署自动化评估工具,也大幅提升了对不同人工智能算法加速与优化的开发效率。同时爱奇艺技术产品团队在服务的弹性和优化调度、部署参数的自动优化选取等方面,也完成了许多优化工作。后续会继续深入优化,以充分发挥云平台的计算资源和能力,加速人工智能推理服务的在业务上的落地,从而赋能流媒体播放服务提升用户体验。

2
相关文章