爱奇艺基于多模态的台词说话人识别技术-服务器专区

爱奇艺基于多模态的台词说话人识别技术

作者：视频理解团队编辑：陶然 2024-11-07 14:54 爱奇艺技术产品团队

　　01# 背景

　　影视剧剧本涵盖了整部剧的文本描述，包括台词及其说话人信息，对了解剧情有关键作用。然而，长视频平台上线的视频历经各种改版和剪辑处理，相应的剧本信息已缺失，台词说话人识别技术由此产生。台词说话人识别技术指的是从一集长视频里提取并识别不同说话人片段的技术，该技术能够实现对海量长视频内容的结构化管理，具备广泛的应用价值，例如在高光剧情检测业务中，台词说话人识别结果作为输入，送入多模态大模型中可以找到预设的多类高光剧情片段，正确率均可达85%，相比于纯台词输入提升5%左右。除此之外，该技术作为基础支撑，在视频描述、视频摘要、翻译以及配音等诸多业务场景中均取得了良好的应用成效，其识别精确率与召回率均可达到90%。

　　现有的台词说话人识别方案主要分为两类，一类是基于聚类的级联框架，另一类是端到端的框架。后者在重叠语音处理上占优势，而我们的处理对象为影视剧内容，每句台词多为一个说话人，因此采用了基于聚类的方案。基于聚类的台词说话人识别技术主要包括语音分割、声纹特征提取和无监督聚类三个部分，首先通过语音活性检测算法(Voice Activity Detection，VAD) 检测到静音段作为分割点，将语音切分成不同的片段，再使用声纹识别网络提取每段音频的特征，之后使用无监督聚类算法对声纹特征聚类。由于长视频存在如下特点：视频总时长较长、对话场景类型多样、说话人数不固定、插曲及背景音等干扰因素复杂，与此同时长视频还存在同一个人在不同场景、语速、情绪和状态下声音差异大的问题。因此，使用基于聚类的技术方案会造成同一个音频切分片段存在多个说话人、声纹特征区分度差以及聚类效果不理想等问题。

　　为解决上述问题，爱奇艺提出了基于多模态的台词说话人识别技术，以台词起止时间为分割点切分出音频片段，利用转场点检测技术将视频切分成多个场景片段，使用爱奇艺声纹识别模型提取特征，对提取到的特征进行聚类得到高纯度台词簇，最后利用主动说话人检测算法（Activate Speaker Detection，ASD）和人脸识别算法，通过多层级关联策略得到每段音频的说话人信息。

　　02# 技术方案

　　整体流程如下图所示，主要包含三个模块：音视频切分模块，声纹特征提取与聚类模块，多层级说话人关联模块。　　

　　音视频切分

　　长视频存在片头、片尾曲，有些剧片头曲位置不固定，这些干扰因素都会影响聚类效果，因此，我们结合场景转场点检测和歌曲识别算法，去除片头尾和插曲片段，得到纯净的对话音频。

　　得到对话音频后，需要将其切分为短音频来提取声纹特征。音频切分是台词说话人识别技术的关键步骤，是后续模块的基石。由于长视频剧集复杂的对话场景和噪声干扰，常用的基于VAD算法的音频分割技术无法满足我们的精度需求，因此我们利用长视频内容的特性，以台词起止时间为音频分割依据，保证切分后的每一段音频只对应唯一说话人。

　　声纹特征提取与聚类

　　目前开源的声纹识别数据集多来源于采访、歌舞及有声读物等，且英文居多，缺少公开的影视剧场景下的声纹库。我们利用爱奇艺海量的长视频资源，建立了大规模影视剧声纹数据集，该数据集由影视综动漫等长视频中多种对话场景下的音频构成，覆盖了发声状态、环境噪声、传输信道等各方面的复杂性。数据集共有2000个说话人，27万条语音，总时长约200个小时。我们以此数据集自研了爱奇艺声纹识别模型，用以解决复杂场景下的说话人识别问题，与开源模型在爱奇艺数据集及开源数据集上的结果对比如下表所示。　　

　　我们使用爱奇艺声纹识别模型提取每段音频的特征，依据场景转场点检测结果，先在场景内聚类，再在整个长视频上聚类，以上两步聚类均优先保证聚类的纯度而非数量，为后续的多层级说话人关联提供基础。

　　多层级说话人关联

　　我们通过台词、场景和全集三个层级的说话人关联，获得每句台词的说话人信息：在台词粒度，通过ASD和人脸识别结果，为每句台词关联正在说话的人；在场景粒度通过每个台词的关联结果和对应的声纹属性，得到每个台词簇的说话人信息，并以此为依据矫正簇内部分台词的识别结果；最后在整集上查缺补漏，根据全集聚类的结果确定上述两个层级关联失败的台词簇的说话人信息。

　　其中，基于多模态的ASD算法是多层级说话人关联模块的关键，该算法可以从镜头中的多个人脸中找到正在说话的人。由于影视剧拍摄手法的特殊性，很多台词对应的视频镜头中不一定只有说话人，会有多人同时在镜头内、说话人背对镜头以及说话人在镜头外等多种情况出现，单纯的图片内出现的人脸或者以视频中出现次数多的人作为说话人会存在很大误差，需要ASD算法对镜头中出现的人做筛选。为此，我们设计并采用下图所示的端到端的说话人检测算法，将候选人脸序列和对应的音频作为输入，先分别经过视觉特征提取模块和音频特征提取模块处理后，再通过基于attention的融合模块得到融合后的多模态特征，最后将该特征送入检测模块输出该候选人是否在讲话。　　

　　03# 总结与规划

　　我们的台词说话人识别技术已经在多个业务场景中落地使用，为视频摘要、视频描述、视频翻译等业务提供了基础技术支撑。在后续的研究中，我们会从算法模型、聚类算法、增加台词语义等方面继续优化，建立更完备的台词说话人识别系统，更好的服务于爱奇艺视频业务。

关注我们