[论文翻译]音频驱动头部说话合成的高效情感适应


原文地址:https://arxiv.org/abs/2309.04946

代码地址:https://github.com/yuangan/EAT_code.git

摘要

音频驱动的头部说话合成是虚拟人相关应用的热门研究课题。 然而,现有训练方法不灵活且效率低下,需要昂贵的端到端将指导视频中的情绪转移到头部说话的预测,这是很大的限制。 在这项工作中,我们提出了音频驱动的说话头的情感适应(EAT)方法,该方法通过参数有效的适应,以经济高效的方式将情感不可知的说话头模型转换为情感可控的模型。 我们的方法利用预先训练的与情绪无关的说话 Transformer ,并从不同的角度引入三种轻量级适应(深层情绪提示、情绪变形网络和情绪适应模块),以实现精确和现实的情绪控制。 我们的实验表明,我们的方法在广泛使用的基准(包括 LRW 和 MEAD)上实现了最先进的性能。 此外,即使在情感视频稀缺或不存在的情况下,我们的参数高效适应也表现出出色的泛化训练能力。

项目网址:https://yuangan.github.io/eat/

1简介

近年来,合成逼真的说话头像因其在工业中的广泛应用而受到越来越多的关注,例如数字人体动画[20,22,55]、视觉配音[43] ,以及视频内容创建[50]。 音频驱动的头像生成旨在生成与语音同步的逼真头像视频。 然而,与言语不同,人类通过情感表达来传达意图。 因此,生成情感头像对于提高现实应用中头像的保真度非常重要。 为了解决这个开放性问题,在构建多知识表示时必须考虑各种形式的知识(例如人头模型、情感、音频和视觉)[57]。

Refer to caption

图 1:高效的情感人物谈话生成。 (a) 之前的工作通过增强情感驾驶视频来训练或微调整个网络。 (b) 我们的 EAT 通过灵活的指导,包括情感提示或文本引导的 CLIP [45] 监督,通过轻量级的调整,将情绪不可知的头部说话模型转变为情绪可控的模型。

以前的一次性头像生成方法[67,43,55]专注于实现情绪不可知的头像的视听同步,这是现实头像的一种特殊情况。 最近的作品[23,22,34]注重生成具有情感意识的谈话者。 GC-AVT [34] 和 EAMM [22] 是使用驱动情感视频和姿势引导视频生成情感视频的两种方法。 GC-AVT[34]通过精细的预处理设计,实现了对说话人的表情、语音内容和姿势的显式控制。 EAMM [22] 通过添加增强的情感源视频来合成一次性情感人物。 由于驱动视频会给嘴部形状带来语义歧义,因此 GC-AVT 用相邻帧替换嘴部部分,而 EAMM 通过使用数据增强忽略驱动情感视频的嘴部部分。 此外,这些方法需要以高成本训练或微调整个网络,以生成情感人物。

尽管情感感知方法在一次性谈话一代中取得了进展,但它们在两个关键方面缺乏深入的思考。
(1)架构效率。 作为头像生成的子任务,训练或微调整个情感头像生成网络的参数效率低下。 此外,由于大规模的情绪不可知的头部说话数据比情绪数据更容易获得,因此值得考虑如何有效地重用从情绪不可知的数据中学到的知识。

(2)指导灵活性。 以前的方法更喜欢将驾驶视频传输到目标说话的头像,而不是直接学习情感表征。 在实践中,找到合适的情感驱动视频需要考虑分辨率、遮挡甚至情感驱动视频和音频的长度等因素。 此外,先前的研究忽略了嘴唇形状,这可能导致不切实际的情绪表达。 例如,根据 FACS [18, 27],凹陷的唇角是悲伤表情的关键组成部分之一。

为了解决上述限制,理想的方法应该能够将预训练的头部特写模型高效、灵活地转移到具有轻量级情感指导的情感头部头部生成任务,如图1所示。 有两个关键优势。 首先,利用重用的知识,我们可以轻松、轻松地将说话人模型应用于情感说话人生成任务。 其次,获得轻量级指导更简单,更适合实际场景,例如文本引导的零样本表达编辑。

为了实现上述范例,我们提出了一种用于音频驱动的谈话头(EAT)生成的有效情绪适应框架,该框架涉及两个阶段。 在第一阶段,我们增强无监督 3D 潜在关键点表示 [56] 以捕获情感表达。 然后,我们介绍音频到表达转换器 (A2ET),它学习使用大规模头部说话数据集将音频映射到增强的 3D 潜在关键点。 在第二阶段,我们提出可学习的指导和适应模块来指导情绪表达的生成。 其中包括用于参数高效情绪适应的深度情绪提示、用于学习面部潜在表示的情绪变形的轻量级情绪变形网络(EDN)以及用于增强视觉质量的即插即用情绪适应模块(EAM)。 我们的方法能够将传统的头部说话模型快速转移到具有高质量结果的情感生成任务,并支持使用图像文本模型[45]进行零样本表达编辑。

我们进行了大量的实验来评估 EAT 对情绪化的谈话者生成的有效性。 与基准竞争对手相比,EAT 在没有引导情感视频的情况下实现了卓越的性能。 此外,基于预训练的说话人模型,我们只需 25% 的训练数据即可在 2 小时内获得最先进的 (SOTA) 性能。 结果表明,我们的方法能够生成更真实的头部说话视频。 并且仅通过情感的文本描述,我们就可以实现零样本的谈话编辑。

总之,我们工作的主要贡献如下:

  • 我们的研究引入了一种新的两阶段范式,称为 EAT,用于解决情绪化的谈话任务。 我们的实验表明,在一次性头部说话生成任务中,这种范式在情绪操纵和视频质量方面都优于以前的方法。
  • 我们提出的架构包括深层情感提示、情感变形网络和情感适应模块。 这种设计能够实现从生成没有情感表达的头像到生成有情感表达的头像的高效转换。
  • 据我们所知,我们的研究是第一个为头部说话适应引入灵活指导的研究。 通过利用图文模型,我们可以实现头部说话视频的零样本表情编辑,超越了之前方法的能力。

2相关工作

之前的作品在视听同步方面都取得了不俗的表现。 然而,仍然存在一些挑战,例如基于大规模预训练的说话人模型的高效知识转移。

音频驱动的头部说话生成。 基于深度学习的音频驱动的头部说话生成[10,51,63,7,67,20,55,64]近年来引起了广泛的关注。 Chen 等人 [7]设计了一种两阶段结构,利用面部标志作为中间表示 MakeItTalk [67]生成一次性基于解开的语音和说话者的谈话头。 PC-AVS [64] 生成具有姿势控制的任意头部说话。

继 Transformer [52] 在 NLP [15, 46] 领域的开创性工作之后,最近的工作在视频相关任务上取得了显着的进展,包括动作识别 [ 2, 19, 36],视频分割[58, 59, 68, 41],跨模型理解[32, 8]等。 在头部说话领域,AVCT[55]设计了一个用于生成头部说话视频的视听相关 Transformer。 在这项工作中,我们增强了 3D 潜在关键点并应用 Transformer 来生成更真实的头像。

Refer to caption

图 2:EAT 模型概述。 (a) 在第一阶段,音频到表情转换器 (A2ET) 将潜在的源图像表示、源音频和头部姿势序列传输为 3D 表情变形。 (b)在第二阶段,情感引导被注入 A2ET、情感变形网络(EDN)和情感适应模块(EAM)中,用于生成情感人物头像,以虚线表示。 (c) RePos-Net 采用 3D 源关键点 𝐾𝑠 和驱动关键点 𝐾𝑖 来生成帧。

情感感知的头部说话一代。 最近,人们对情感人物头像生成进行了研究,以实现真实人物头像生成。 Pumarola 等人 [44]引入了一种无监督框架来生成具有特定表情的面部视频。 EVP [23]提出情感视频肖像,以根据源视频产生更生动的结果。 然而,最近出现了一次性情绪化的谈话一代。 Sinha [49] 通过图卷积生成姿势固定的情感人物。 GC-AVT [34] 通过精细的预处理设计训练情绪和姿势可控模型。 EAMM [22] 将一次性情感头像与增强情感源视频合成在一起。 在我们的工作中,我们基于预训练的头部说话模型,通过有效的适应来实现情绪控制。

高效微调。 人们已经研究了知识转移的有效微调,并提出了许多技术,包括残差适配器[47]、偏差调整[5]和侧面调整[61]. 最近,提示[35]在视觉任务中引起了越来越多的关注。 受语言模型中提示调整的启发,最近在各种视觉任务中提出了提示调整[45,24,66,25,65,17,33]以提高有效性和效率。 CoOp [66] 和 VPT [25] 利用可学习的提示向量并实现更好的性能。 此外,为了提高通用性,CoCoOp [65] 设计了一个轻量级网络来学习每个图像的提示向量。 在我们的工作中,我们引入了深层情感提示、情感变形网络和情感适应模块,以实现高效且有效的情感相关知识迁移。

3方法

为了避免先前方法[22, 34]昂贵的端到端训练和微调,我们提出了一个两阶段范例,即音频驱动的 Talking-head 的高效情感适应(EAT)生成方法。 首先,我们介绍使用音频到表达转换器 (A2ET) 的增强型 3D 潜在表示和情绪不可知的说话头预训练。 (第 3.1 节)其次,我们提出了一种参数有效的情绪适应方法,可以快速调整预训练的头部特写模型来执行情绪头部特写任务。 该方法包括深层情感提示、情感变形网络(EDN)和情感适应模块(EAM)。 (第3.2)最后,我们详细介绍了我们的训练目标。 (第 3.3 节)

Refer to caption

图 3:RePos-Net 和 EAM 的架构。RePos-Net 从源图像中提取 3D 外观特征 $𝑓𝑠$。 给定 3D 源关键点和驱动关键点,RePos-Net 预测 3D 流扭曲矩阵 𝑤 以转换 3D 特征 $𝑓𝑠$ 并生成输出帧。 EAM 通过学习到的 𝛾 和 𝛽 将情感指导转移到情绪调节特征。

3.1与情绪无关的预训练

与情感说话者[34, 22]的低效端到端训练相比,我们探索利用从在与情感无关的数据集上预先训练的适应性模型中获得的知识。 该模型可以快速适应下游任务,包括情感人物谈话的生成。 为了实现这种与情绪无关的相关模型,我们首先增强 3D 潜在表示[56]以更好地捕捉微妙的表达。 然后引入音频到表达转换器 (A2ET) 来捕获音频剪辑的时间上下文,生成用于生成说话人的视听同步 3D 潜在表达序列,并支持有效的情感适应(第 3.3)。

3.1.1增强的潜在表示。

给定一个会说话的头部框架 𝑖,无监督学习的 3D 潜在关键点 $𝐾𝑖$ 由四个部分组成:特定于身份的规范关键点 $𝐾𝑐$,旋转矩阵$𝑅𝑖$、平移$𝑇𝑖$和表达式变形$𝐸𝑖$。 然后将这些组件与以下等式组合:

$$𝐾𝑖=𝑅𝑖​𝐾𝑐+𝑇𝑖+𝐸𝑖.$$ (1)

基于 3D 潜在关键点,RePosition Network(RePos-Net)[56]可以将面部表情从一个人转移到另一个人,如图3. 然而,我们观察到这种转移未能考虑其他面部表情元素,例如眉毛、唇角等。 因此,我们通过以下修改增强了潜在表示,以实现更真实的头部说话:

  • 我们删除了 OSFV [56] 中的变形先验损失,这会惩罚关键点变形的大小。 这使得我们的潜在关键点能够捕捉到面部表情更微妙的变化。
  • 我们使用 MEAD 数据集 [54] 从相同身份的中性和情感视频中获取标记和配对的面部数据。 这有助于网络从表情变化中学习更具表现力的面孔。
  • 为了避免与表情无关的背景的影响,我们只计算面部部分的损失。 我们使用 Effectnet [40] 数据集来增强配对数据,以提高普遍性。

这些修改增强了学习到的 3D 潜在关键点的表示能力,这是我们 A2ET 模型的目标。

3.1.2音频到表达式转换器。

由于 3D 潜在关键点特定于源身份,并且比 2D 潜在关键点[48,55,22]更复杂,因此直接预测 3D 关键点序列是一项具有挑战性的任务。 我们注意到面部表情主要由 3D 潜在关键点中的表情变形 $𝐸𝑖 $表示。 因此,A2ET 的目的是学习视听同步表情变形,它由视听特征提取和表情变形预测组成。

视听特征提取。 之前的工作[55]使用 Transformer 和音素生成与情绪无关的说话头像。 然而,训练 Transformer 需要大量数据集,并且在嘈杂或带口音的语音中音素提取具有挑战性。 为了解决这些限制,我们在大型数据集 Voxceleb2 [11] 上训练 A2ET 模型,并提取语音特征 $𝑆1:𝑛$ 和声学特征 $𝐴1:𝑛$ 作为输入。 音频语义特征𝑆1:𝑛是通过语音识别模型[1]从 MFCC 特征中提取的。 为了导出声学特征$𝐴1:𝑛$,我们设计了一个音频编码器来对使用 80 个梅尔箱和 1025 个频率箱提取的梅尔声谱图进行编码。

如图2(a)所示,给定帧𝑖,我们从$2​𝑤+1$音频帧中提取其语义上下文特征。 最初,语音特征$𝑆𝑖−𝑤:𝑖+𝑤$和头部姿势特征$𝑃𝑖−𝑤:𝑖+𝑤$被转换为语音标记。 帧𝑖的 6DoF 被编码为姿势词符𝑝。 A2ET 编码器将这些标记作为输入。 随后,为了捕捉微妙的嘴巴运动,我们使用音频编码器 [31] 和关键点检测器 $𝐷𝑘$ 对声学特征 $𝐴𝑖−𝑤:𝑖+𝑤 $和潜在源图像表示进行编码。 这些表示被融合以获得声学标记,A2ET 解码器使用这些标记来输出 $2​𝑤+1$ 标记的特征。

Refer to caption

图 4:一次性情感谈话头生成案例的定性结果。 快乐和惊讶的结果在左边和右边。 最上面一行显示了身份和驱动情感。 第二行显示内容的真实框架。 LRW [12] 的左源面。 来自 CREMA-D [6] 的右脸。表达变形预测。 由𝑘 3D 偏移组成的表情变形𝐸𝑖可以根据中心帧𝑖的特征进行预测,但优化 3D 表情运动会导致收敛问题。 我们观察到,通过自我监督学习到的 3D 关键点表现出固有的相互依赖性,只有少数关键点影响面部表情。 为了解决这个问题,采用𝐸𝑖的主成分分析(PCA)来降低维度并消除不必要的信息。 然后我们可以根据音频特征预测 3D 表情变形。

3.2高效的情绪适应

传统的音频驱动的头像方法[7,67,20,55,64]在与情绪无关的头像生成任务中取得了令人印象深刻的进步。 然而,要获得真实的谈话人物,情感表达至关重要。 因此,我们提出了一种新颖的方法,其中包括三个参数有效的模块,用于从情绪不可知模型中快速进行情绪适应。 这些模块包括深度情绪提示、情绪变形网络 (EDN) 和情绪适应模块 (EAM),专门设计用于实现预训练 A2ET 的高效情绪适应。 我们的方法允许轻量级的调整,这为指导下游任务提供了灵活性,例如零样本表达编辑。

情感引导。 一个简单的想法是使用以情绪为条件的可学习指导来生成情绪化的谈话者。 我们假设每种情绪类型都属于潜在空间中的一个不同的子域。 如图2(b)所示,采用映射网络𝑀来提取带有潜在代码𝑧∈𝒰16的情感条件指导。 潜在代码是从高斯分布中采样的,该分布常用于生成模型[29, 9]。 这种情绪引导用于引导情绪表达的产生。

深刻的情感提示。 为了实现参数高效的情感适应,我们将指导作为 A2ET Transformer 层的附加输入词符,如图2(a)所示。 我们分别在 A2ET Transformer 架构中引入浅层和深层情感提示,浅层提示添加到第一层,深层提示添加到之后的每一层。 表 4 中的结果表明,与浅层提示相比,深层提示可以带来更好的情绪表达传递。 然而,我们也观察到,结合情感提示可能会对视听同步产生不利影响。 使用固定的 Transformer 权重生成情感表达,同时确保视听同步可能会对提示提出挑战。

LRW [12] MEAD [54]
PSNR/SSIM↑ FID↓ SyncNet↑ M/F-LMD↓ PSNR/SSIM↑ FID↓ SyncNet↑ M/F-LMD↓ Acc~emo~↑
ATVG [7] 18.40/0.64 51.56 2.73 2.69/3.31 17.64/0.56 99.42 1.80 2.77/3.74 17.36
Wav2Lip [43] 22.80/0.73 7.44 7.59 1.58/2.47 19.12/0.57 67.49 8.97 3.11/3.71 17.87
MakeItTalk [67] 21.67/0.69 3.37 3.28 2.16/2.99 18.79/0.55 51.88 5.28 3.61/4.00 15.23
AVCT [55] 21.72/0.68 2.01 4.63 2.55/3.23 18.43/0.54 39.18 6.02 3.82/4.33 15.64
PC-AVS [64] 23.32/0.72 4.64 7.36 1.54/2.11 20.60/0.61 53.04 8.60 2.66/2.70 11.88
EAMM [22] 22.34/0.71 6.44 4.67 1.81/2.37 20.55/0.66 22.38 6.62 2.19/2.55 49.85
Pretrain (Ours) 23.97/0.76 1.89 6.30 1.95/2.12 20.32/0.61 26.71 8.09 2.83/2.99 25.18
EAT (Ours) 24.11/0.77 3.52 6.22 1.79/2.08 21.75/0.68 19.69 8.28 2.25/2.47 75.43
Ground Truth ∞ /1.00 0 7.06 0.00/0.00 ∞ /1.00 0 7.76 0.00/0.00 84.37

表格 1:与 LRW [12] 和 MEAD [54] 上最先进的方法进行定量比较。 我们展示了 LRW 和 MEAD 上预训练的 A2ET 和完整 EAT 模型的结果。 M/F-LMD 表示嘴和脸的标志距离。 “↑”:越高越好。 “↓”:越低越好。 红色:第一个分数。 蓝色:第二个分数。情绪变形网络。 我们观察到等式中解耦的 3D 隐式表示。 1表现出线性可加性。 此外,情绪化的谈话人物表现出传统谈话人物所不存在的情感变形。 为了补充 $𝐸𝑖$,一种直观的方法是包含一个情感表达变形项:

$$𝐸𝑖′=𝐸𝑖+Δ​𝐸𝑖, $$ (2)

其中$𝐸𝑖′$表示情绪表情变形,$𝐸𝑖$表示 A2ET 预测的语音相关表情变形,$Δ​𝐸𝑖$表示情绪相关表情变形。 为了预测$Δ​𝐸𝑖$,我们设计了一个称为情绪变形网络(EDN)的子网络,如图2(b)所示。 EDN 利用 A2ET 编码器架构通过情感指导和源潜在表示词符来预测 $Δ​𝐸𝑖$。 为了加速适应,我们使用预训练的 A2ET 编码器初始化 EDN。 要使用 $𝐸𝑖′$ 更新$ 𝐸𝑖$,我们可以使用等式 1 获得情感 3D 潜在关键点。
1

情绪适应模块。 为了提高视觉质量,我们设计了一个轻量级、即插即用的适应模块,称为情绪适应模块(EAM),它可以生成情绪调节的特征。 如图3所示,该模块接收引导嵌入𝑒,并通过两个全连接(FC)层对其进行处理,以获得一组通道权重𝛾 和偏差 𝛽。 我们使用 tanh 激活函数将 𝛾 和 𝛽 值限制在 [-1, 1] 范围内:

$$𝛾,𝛽=tanh⁡(FC​(ReLU​(FC​(𝑒)))). $$ (3)

一旦我们获得了𝛾和𝛽,我们就可以输入特征𝑥来获得情感特征,其计算公式如下:

$$𝐸​𝐴​𝑀​(𝑥)=𝐹𝑠​(1+𝛾,𝑥)+𝛽, $$ (4)

其中 𝐹𝑠 表示通道乘法。 如图2所示,EAM 以及音频和图像特征提取器可以插入到 RePos-Net 中。

Method Wav2Lip PC-AVS EAMM EAT GT
Lip-sync 3.86 3.90 3.64 3.99 4.59
Quality 2.69 3.19 2.89 3.35 4.59
Acc~emo~ 13% 20% 35% 50% 66%

表 2:CREMA-D 和 LRW 的用户研究。 Lip-sync 和 Quality 代表视听同步和视觉质量。 情绪分类准确性(Acc~emo~ )评估产生情绪表达的方法的有效性。零样本表达式编辑。 由于我们的 EAT 的快速适应能力,我们可以通过从大规模视觉语言相关模型 CLIP [45] 中提取知识来实现​​零样本文本引导的说话头表情编辑。 这种独特的能力使我们的工作与最新的研究[22]区分开来,因为它消除了对情感训练数据的需求,并能够推广到需要罕见表达的应用程序。

具体来说,我们的目标是利用 CLIP 损失来学习与文本描述的表达相关的情感指导。 为了实现这一点,我们从目标视频中提取头部姿势、源音频和第一帧作为输入。 此外,还采用目标表达描述进行微调。 利用改进的 EAT 模型和我们的训练损失,我们添加了一个额外 CLIP 损失[42]来仅微调映射网络和 EAM 模块。 具体来说,我们使用 CLIP 的图像编码器从预测的说话面孔中提取图像嵌入,并使用其文本编码器从描述中提取文本嵌入。 然后,我们迭代优化图像和文本嵌入之间的距离,以将生成的说话面孔与输入文本对齐。

3.3培训目标

对于监督学习,损失计算如下:

$$ℒ=𝜆𝑙​𝑎​𝑡​ℒ𝑙​𝑎​𝑡+𝜆𝑠​𝑦​𝑛​𝑐​ℒ𝑠​𝑦​𝑛​𝑐+𝜆𝑟​𝑒​𝑐​ℒ𝑟​𝑒​𝑐, $$ (5)

其中 $𝜆𝑙​𝑎​𝑡$、$𝜆𝑠​𝑦​𝑛​𝑐$ 和 $𝜆𝑟​𝑒​𝑐$ 是重新加权相应项的超参数。 至于零样本编辑,由于没有真实视频,我们用 CLIP 损失替换 $𝜆𝑟​𝑒​𝑐​ℒ𝑟​𝑒​𝑐$。 下面,我们将详细讨论每项训练损失。

潜在损失。 应用潜在损失来优化预测的潜在关键点:

$$ℒ𝑙​𝑎​𝑡=1𝑁​∑𝑖=1𝑁(‖𝑃​𝐸𝑖−𝑃​𝐸^𝑖‖22+‖𝐾𝑖−𝐾^𝑖‖22), $$ (6)

其中 𝑁 表示每个批次中采样的音频剪辑的帧长度。 𝑃​𝐸𝑖表示𝑖帧中表达变形的预测 PCA。 $𝐾𝑖 $是根据方程式传输的 3D 潜在关键点。 1。 $𝑃​𝐸^𝑖$和$𝐾^𝑖$是框架𝑖对应的 ground-truth。 由于𝑃𝑖中不包含情感表达变形$Δ​𝐸𝑖$,因此我们仅使用式(1)中 3D 关键点的损失。 6 同时训练 EDN。

同步损失。 Wav2Lip[43]中引入了同步损失。 基于 SyncNet [13]的结构,我们训练了一个专家来区分中性和情感数据集中的视听同步。 对于每批中的采样音频片段,我们使用以下公式计算生成视频的同步损失:

$$ ℒsync=−log⁡(𝑣⋅𝑠𝑚​𝑎​𝑥​(∥𝑣∥2⋅∥𝑠∥2,𝜖)). $$ (7)

输入语音嵌入𝑠和生成的视频嵌入𝑣分别由 SyncNet 中的语音编码器和图像编码器提取。

重建损失。 为了改善表情生成,我们仅在面部区域采用$ℒ1$重建损失。 此外,为了生成更清晰的帧,我们使用预训练的 VGG19 模型将感知损失 [26] 应用于整个帧。

CLIP 损失。 CLIP 损失使用预训练的 CLIP 模型计算生成的人脸嵌入与文本描述之间的相似度。 具体来说,CLIP 损失是通过图像和文本的归一化嵌入之间的余弦相似度来计算的。

4实验

4.1实验设置

实施细节。 视频采样率为 25 FPS,音频采样率为 16KHz。 视频被裁剪并调整为 256×256。 为了同步音频特征和视频,我们通过将窗口长度和跳跃长度配置为 640 来提取梅尔频谱图[37]。 EAT 中使用的关键点 𝑘 数量为 15。 情感提示的映射网络由针对每种情感的共享四个 MLP 层和非共享四个 MLP 层组成。 我们增强 3D 潜在关键点 48 小时,并预训练具有增强潜在关键点的 A2ET 48 小时。 然后我们对 EAT 架构进行了 6 个小时的微调。 我们的工作基于 4 个 NVIDIA 3090 GPU。

数据集。 训练数据集由来自 VoxCeleb2 [11] 和 MEAD [54] 的视频组成。 MEAD 是一款高品质情感头像视频集,包含 8 种情感。 为了确保公平比较,我们使用与 EAMM [22] 相同的测试身份,根据身份将 MEAD 数据集分为训练集和测试集。 为了学习较大的头部姿势变化,我们使用 Emotion-FAN [39] 从 VoxCeleb2 [11] 数据集中选择了大约 8,000 个情感视频进行微调。 为了获得增强的 3D 关键点的 PCA,我们从训练集中提取了最大的 32 个特征值矩阵和 2,500 个视频的平均值。

基线。 我们在 LRW [12] 和 MEAD [54] 测试集上与 SOTA 一次性说话头生成方法进行比较。 它们是 ATVG [7]、Wav2Lip [43]、MakeItTalk [67]、AVCT [55]、 PC-AVS [64] 和 EAMM [22]。

Refer to caption

图 5:调整效率。 我们的 EAT 展现出卓越的调优效率,在一小时的微调会话中仅使用 50% MEAD 数据,甚至在两小时的会话中仅使用 25% 的数据,即可实现最先进的训练性能。Refer to caption

图 6:EAT 中参数的百分比。公制。 我们使用以下指标评估合成情感视频的质量:

画面质量。 我们利用 PSNR、SSIM 和 Frechet Inception Distance Score (FID) [21] 来衡量合成视频的图像质量。

视听同步。 我们使用 SyncNet [13] 的置信度来评估合成视频的视听同步性。 另外,嘴部标志点之间的距离(M-LMD)[7]用于表示语音内容一致性,而整个面部标志点之间的距离(F-LMD)则表示姿势和表情的准确性。

情感准确性。 为了评估生成的情绪的情绪准确性(Acc~emo~ ),我们使用 MEAD 训练集调节 Emotion-Fan [39]。

4.2说话的一代

为了验证 EAT 的有效性,我们对情绪不可知论和情绪谈话头生成进行了实验。

与情绪无关的说话头生成。 对于一次性的与情绪无关的说话人的生成,我们在 LRW 测试集上进行测试,该测试集包含 25k 个中性视频。 我们将第一帧作为每个测试视频的源图像。 如表 1 所示,我们的方法在与情绪无关的说话人生成的视觉质量方面优于其他方法。 此外,我们的 EAT 可以提高预训练的头部说话模型的性能。 Wav2Lip 和 PC-AVS 存在过度拟合预训练唇形同步评分模型的风险,因为它们的同步分数超过了真实值。 此外,Wav2Lip 仅生成口部,没有面部表情和头部姿势。

Refer to caption

图 7:基于 CLIP 的零样本编辑。 表达式由“文本描述”提供。 中性视频和源图像来自 LRW [12]。Refer to caption

图 8:我们的 EAT 的其他零样本结果。 情感表达由“文字描述”给出。 每个文本的第一行显示编辑结果,第二行显示根据学习的指导生成的不同身份的说话头像。 请参阅我们的视频了解更多详情。 源图像来自 MEAD[54] 和 LRW[12]。

Method PSNR↑ M/F-LMD↓ Sync↑ Acc~emo~↑
OSFV [56] 22.39 1.60/2.12 6.68 30
Enhanced 24.49 1.09/1.49 7.49 86

表 3:增强潜在表征的消融研究。 为了验证我们增强的潜在表示的有效性,我们生成了由源图像驱动的情感视频和 MEAD 测试集中的情感视频。情绪化的谈话一代。 我们按照 EAMM 的设置,在公开的 MEAD 测试集上比较情感说话人的生成。 对于所有方法,中性源帧均来自 EAMM。

1 显示我们的 EAT 在大多数指标中都可以实现最佳性能。 具体来说,与其他方法相比,EAT 实现了更好的视频质量和更高的情感准确性。 这些发现支持了我们提出的方法所学习的情感表征的优越性。 图4直观地展示了我们在一次性设置中产生真实且全面的情感表达的能力。 请注意,即使使用真实 6DoF,AVCT [55] 也无法明确控制姿势。 欲了解更多结果,请参阅我们的补充。

Prompt PSNR↑ M/F-LMD↓ Sync↑ Acc~emo~↑
w/o 20.46 2.85/2.99 8.12 25
Shallow 21.19 2.50/2.63 7.63 57
Deep 21.23 2.36/2.48 7.83 84

表 4:提示的消融研究。 为了验证浅层和深层情感提示的有效性,我们使用 MEAD 测试集中的源图像和情感视频制作视频。

4.3用户研究

为了评估使用野外图像生成的情感说话头像,我们对 14 名参与者进行了一项用户研究,以评估口型同步、视频质量和情感分类。 最高分值是 5。 为了确保图像集的多样性,我们从 CREMA-D 和 LRW 数据集中随机采样了 16 张图像,这些图像不包含在训练数据中。 此外,我们使用 MEAD 测试集中的音频为每种方法生成了总共 32 个视频(4 × 8 种情感)。 如表2所示,我们的方法在口型同步、视频质量和情感准确性方面取得了最佳分数,验证了我们的 EAT 架构在生成情感头像方面的有效性。 此外,结果表明,表 1 中的同步值对于情绪化的头像来说是不准确的,因为 SyncNet 模型仅使用中性头像视频进行训练。 更多野外结果可以在补充中找到。

4.4调优效率

在第二阶段的微调过程中,我们每半小时对 MEAD 测试集的一个子集进行定期测试。 这使我们能够展示 EAT 的时间和数据效率。 即使数据有限,EAT 也可以有效地使预训练的 A2ET 模型适应子任务。 如图5所示,无论是全数据还是半数据,EAT 都能在 1 小时内超越 SOTA 结果。 我们还可以在两小时内仅用四分之一的数据来实现可比的性能。 此外,如图6所示,与预训练模型相比,情感适应模块仅需要 6.85% 的额外参数。 深层情感提示占附加参数的 5.30%,EDN 占 1.17%,EAM 占 0.38%。 这些结果证明了我们的 EAT 方法的有效性和效率。

Ablation (A) (B) (C) EAT
Prompt
EDN
EAM
PSNR↑ 20.46 21.23 21.40 21.79
M/F-LMD↓ 2.85/2.99 2.36/2.48 2.28/2.41 2.22/2.43
Sync↑ 8.12 7.83 7.83 8.22
Acc~emo~↑ 25 84 81 67

表 5:每个组件的消融研究。 每个组件都有助于提高视频质量,从而验证其有效性。

ℒ𝑝​𝑒​𝑟
ℒ𝑙​𝑎​𝑡
ℒ𝑠​𝑦​𝑛​𝑐
ℒ1
PSNR↑ 21.52 21.61 21.31 21.79
Sync↑ 5.50 5.66 8.13 8.22

表 6:每个损失的消融研究。 每个损失都有助于视频质量或同步值的提高。

4.5零次表达式编辑

我们使用 CLIP[45]模型进行零样本表达编辑,生成新颖的情感头部说话视频,如图7所示。 给定一个中性视频,我们将第一帧视为源图像,并通过文本描述编辑表达式。 基于 EAT 架构,我们通过额外的 CLIP 损失来学习情感引导和 EAM [45]。 我们注意到,文字描述将决定编辑性能,需要精心设计。 此外,从一个视频和指导文本中学习的潜在代码也可以应用于另一视频。 如图8所示,我们呈现了由学习的潜在代码操纵的不同身份结果。

4.6消融研究

为了评估 EAT 各个方面的有效性和重要性,我们对我们提出的架构和模块进行了多项消融研究。

增强的潜在表示。 我们比较了我们提出的增强之前和之后的潜在表示。 如表3所示,面部重现的优越性能表明我们的预训练模型可以捕捉比 OSFV [56]更广泛的情感面部运动,后者具有已在第 2 节中讨论过。 3.1.1

提示。 为了研究不同类型提示的效果,我们进行了浅层和深层情感提示的实验。 表4显示,深层提示比浅层提示更好地学习情感表达变形,尽管它对同步有副作用。

每个组件。 为了验证我们提出的模块的有效性,我们通过每次移除一个组件来进行消融实验。 表5显示所有三个组件都可以提高视频质量。 深刻的情感提示可以将谈话者的知识转移到情感谈话者的生成上,但会牺牲同步性。 尽管深层的情感提示会导致强烈的情感表达,但输出结果却偏离了事实真相。 通过结合 EDM 和 EAM,图像质量和对真实情况的保真度得到了增强,PSNR/SSIM 值的上升就证明了这一点。 然而,这是以牺牲情绪强度和准确性为代价的。 请参阅我们的补充材料进行视觉分析。

各有损失。 如表6所示,我们对微调阶段的感知损失、潜在损失、同步损失和$ℒ1$损失进行了消融研究。 它表明同步损失有助于同步,而其他损失则有助于表达保真度。

5结论

在本文中,我们提出了一种用于音频驱动的头部说话的有效情感适应范例,由两个阶段组成。 首先,我们增强 3D 潜在表示并开发 Transformer 架构 A2ET,以实现与情绪无关的说话人生成。 其次,我们通过深层情绪提示、EDN 和 EAM 引入可学习的情绪表达控制指导。 借助这些适应模块,EAT 可以快速将预训练的头部特写模型转换为情感头部特写生成。 实验表明,我们的 EAT 是第一个参数高效且有效的情感谈话者生成范例。

局限性和更广泛的影响。 1)情感训练数据的缺点,例如背景和头部姿势的多样性,会影响我们的 EAT 的泛化性。 2)我们的方法为更广泛的头部特写应用铺平了道路,包括零样本或一次性情感头部特写生成。

致谢。 该工作得到国家重点研发计划(2022YFB3303300)和中央高校基本科研业务费专项资金(2022YFB3303300)的支持。 226-2023-00048)。

参考

  • [1]Dario Amodei, Sundaram Ananthanarayanan, Rishita Anubhai, Jingliang Bai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, Qiang Cheng, Guoliang Chen, et al.Deep speech 2: End-to-end speech recognition in english and mandarin.In International conference on machine learning, pages 173–182. PMLR, 2016.
  • [2]Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, and Cordelia Schmid.Vivit: A video vision transformer.In ICCV, pages 6836–6846, 2021.
  • [3]Lisa Feldman Barrett, Ralph Adolphs, Stacy Marsella, Aleix M Martinez, and Seth D Pollak.Emotional expressions reconsidered: Challenges to inferring emotion from human facial movements.Psychological science in the public interest, 20(1):1–68, 2019.
  • [4]Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan.Iemocap: Interactive emotional dyadic motion capture database.Language resources and evaluation, 42:335–359, 2008.
  • [5]Han Cai, Chuang Gan, Ligeng Zhu, and Song Han.Tinytl: Reduce memory, not parameters for efficient on-device learning.Advances in Neural Information Processing Systems, 33:11285–11297, 2020.
  • [6]Houwei Cao, David G Cooper, Michael K Keutmann, Ruben C Gur, Ani Nenkova, and Ragini Verma.Crema-d: Crowd-sourced emotional multimodal actors dataset.IEEE transactions on affective computing, 5(4):377–390, 2014.
  • [7]Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu.Hierarchical cross-modal talking face generation with dynamic pixel-wise loss.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7832–7841, 2019.
  • [8]Yangming Cheng, Liulei Li, Yuanyou Xu, Xiaodi Li, Zongxin Yang, Wenguan Wang, and Yi Yang.Segment and track anything.arXiv preprint arXiv:2305.06558, 2023.
  • [9]Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha.Stargan v2: Diverse image synthesis for multiple domains.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8188–8197, 2020.
  • [10]Joon Son Chung, Amir Jamaludin, and Andrew Zisserman.You said that?BMVC, 2017.
  • [11]Joon Son Chung, Arsha Nagrani, and Andrew Zisserman.VoxCeleb2: Deep Speaker Recognition.In Interspeech 2018, pages 1086–1090. ISCA, Sept. 2018.
  • [12]Joon Son Chung and Andrew Zisserman.Lip reading in the wild.In Asian conference on computer vision, pages 87–103. Springer, 2016.
  • [13]Joon Son Chung and Andrew Zisserman.Out of time: automated lip sync in the wild.In Asian conference on computer vision, pages 251–263. Springer, 2016.
  • [14]Davide Cozzolino, Andreas Rossler, Justus Thies, Matthias Nießner, and Luisa Verdoliva.Id-reveal: Identity-aware deepfake video detection.In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 15108–15117, 2021.
  • [15]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.Bert: Pre-training of deep bidirectional transformers for language understanding.In NAACL, pages 4171––4186, 2019.
  • [16]Michail Christos Doukas, Evangelos Ververas, Viktoriia Sharmanska, and Stefanos Zafeiriou.Free-headgan: Neural talking head synthesis with explicit gaze control.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
  • [17]Yu Du, Fangyun Wei, Zihe Zhang, Miaojing Shi, Yue Gao, and Guoqi Li.Learning to prompt for open-vocabulary object detection with vision-language model.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14084–14093, 2022.
  • [18]Paul Ekman and Wallace V Friesen.Facial action coding system.Environmental Psychology & Nonverbal Behavior, 1978.
  • [19]Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, and Christoph Feichtenhofer.Multiscale vision transformers.In ICCV, pages 6824–6835, 2021.
  • [20]Yudong Guo, Keyu Chen, Sen Liang, Yong-Jin Liu, Hujun Bao, and Juyong Zhang.Ad-nerf: Audio driven neural radiance fields for talking head synthesis.In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5784–5794, 2021.
  • [21]Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter.Gans trained by a two time-scale update rule converge to a local nash equilibrium.Advances in neural information processing systems, 30, 2017.
  • [22]Xinya Ji, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Wayne Wu, Feng Xu, and Xun Cao.EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model.In Special Interest Group on Computer Graphics and Interactive Techniques Conference Proceedings, pages 1–10, Vancouver BC Canada, Aug. 2022. ACM.
  • [23]Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun Cao, and Feng Xu.Audio-driven emotional video portraits.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14080–14089, 2021.
  • [24]Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig.Scaling up visual and vision-language representation learning with noisy text supervision.In International Conference on Machine Learning, pages 4904–4916. PMLR, 2021.
  • [25]Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, and Ser-Nam Lim.Visual prompt tuning.In European Conference on Computer Vision (ECCV), 2022.
  • [26]Justin Johnson, Alexandre Alahi, and Li Fei-Fei.Perceptual losses for real-time style transfer and super-resolution.In European conference on computer vision, pages 694–711. Springer, 2016.
  • [27]Dacher Keltner, Disa Sauter, Jessica Tracy, and Alan Cowen.Emotional expression: Advances in basic emotion theory.Journal of nonverbal behavior, 43(2):133–160, 2019.
  • [28]Diederik P Kingma and Jimmy Ba.Adam: A method for stochastic optimization.ICLR, 2015.
  • [29]Diederik P. Kingma and Max Welling.Auto-Encoding Variational Bayes.In International Conference on Learning Representations, 2014.
  • [30]Jean Kossaifi, Robert Walecki, Yannis Panagakis, Jie Shen, Maximilian Schmitt, Fabien Ringeval, Jing Han, Vedhas Pandit, Antoine Toisoul, Björn Schuller, et al.Sewa db: A rich database for audio-visual emotion and sentiment research in the wild.IEEE transactions on pattern analysis and machine intelligence, 43(3):1022–1040, 2019.
  • [31]Sangeun Kum and Juhan Nam.Joint Detection and Classification of Singing Voice Melody Using Convolutional Recurrent Neural Networks.Applied Sciences, 9(7):1324, Mar. 2019.
  • [32]Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, and Jun Xiao.Catr: Combinatorial-dependence audio-queried transformer for audio-visual video segmentation.In Proceedings of the 31th ACM International Conference on Multimedia, 2023.
  • [33]Muheng Li, Lei Chen, Yueqi Duan, Zhilan Hu, Jianjiang Feng, Jie Zhou, and Jiwen Lu.Bridge-prompt: Towards ordinal action understanding in instructional videos.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 19880–19889, 2022.
  • [34]Borong Liang, Yan Pan, Zhizhi Guo, Hang Zhou, Zhibin Hong, Xiaoguang Han, Junyu Han, Jingtuo Liu, Errui Ding, and Jingdong Wang.Expressive talking head generation with granular audio-visual control.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3387–3396, 2022.
  • [35]Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig.Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing.ACM Computing Surveys, page 3560815, Sept. 2022.
  • [36]Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, and Han Hu.Video swin transformer.In CVPR, pages 3202–3211, 2022.
  • [37]Beth Logan.Mel frequency cepstral coefficients for music modeling.In In International Symposium on Music Information Retrieval. Citeseer, 2000.
  • [38]Momina Masood, Marriam Nawaz, Khalid Mahmood Malik, Ali Javed, and Aun Irtaza.Deepfakes generation and detection: State-of-the-art, open challenges, countermeasures, and way forward.arXiv preprint arXiv:2103.00484, 2021.
  • [39]Debin Meng, Xiaojiang Peng, Kai Wang, and Yu Qiao.Frame Attention Networks for Facial Expression Recognition in Videos.In 2019 IEEE International Conference on Image Processing (ICIP), pages 3866–3870, Taipei, Taiwan, Sept. 2019. IEEE.
  • [40]A. Mollahosseini, B. Hasani, and M. H. Mahoor.Affectnet: A database for facial expression, valence, and arousal computing in the wild.IEEE Transactions on Affective Computing, PP(99):1–1, 2017.
  • [41]Xiao Pan, Peike Li, Zongxin Yang, Huiling Zhou, Chang Zhou, Hongxia Yang, Jingren Zhou, and Yi Yang.In-n-out generative learning for dense unsupervised video segmentation.In Proceedings of the 30th ACM International Conference on Multimedia, pages 1819–1827, 2022.
  • [42]Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, and Dani Lischinski.Styleclip: Text-driven manipulation of stylegan imagery.In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2085–2094, 2021.
  • [43]KR Prajwal, Rudrabha Mukhopadhyay, Vinay P Namboodiri, and CV Jawahar.A lip sync expert is all you need for speech to lip generation in the wild.In Proceedings of the 28th ACM International Conference on Multimedia, pages 484–492, 2020.
  • [44]Albert Pumarola, Antonio Agudo, Aleix M Martinez, Alberto Sanfeliu, and Francesc Moreno-Noguer.Ganimation: Anatomically-aware facial animation from a single image.In Proceedings of the European conference on computer vision (ECCV), pages 818–833, 2018.
  • [45]Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.Learning transferable visual models from natural language supervision.In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.
  • [46]Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever.Language models are unsupervised multitask learners.OpenAI blog, 1(8):9, 2019.
  • [47]Sylvestre-Alvise Rebuffi, Hakan Bilen, and Andrea Vedaldi.Learning multiple visual domains with residual adapters.Advances in neural information processing systems, 30, 2017.
  • [48]Aliaksandr Siarohin, Stéphane Lathuilière, Sergey Tulyakov, Elisa Ricci, and Nicu Sebe.First order motion model for image animation.Advances in Neural Information Processing Systems, 32:7137–7147, 2019.
  • [49]Sanjana Sinha, Sandika Biswas, Ravindra Yadav, and Brojeshwar Bhowmick.Emotion-controllable generalized talking face generation.International Joint Conferences on Artificial Intelligence Organization, 2022.
  • [50]Linsen Song, Wayne Wu, Chaoyou Fu, Chen Qian, Chen Change Loy, and Ran He.Everything’s talkin’: Pareidolia face reenactment.arXiv preprint arXiv:2104.03061, 2021.
  • [51]Yang Song, Jingwen Zhu, Dawei Li, Xiaolong Wang, and Hairong Qi.Talking face generation by conditional recurrent adversarial network.arXiv preprint arXiv:1804.04786, 2018.
  • [52]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin.Attention is all you need.In Advances in neural information processing systems, pages 5998–6008, 2017.
  • [53]Konstantinos Vougioukas, Stavros Petridis, and Maja Pantic.Realistic speech-driven facial animation with gans.International Journal of Computer Vision, 128:1398–1413, 2020.
  • [54]Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao, and Chen Change Loy.Mead: A large-scale audio-visual dataset for emotional talking-face generation.In European Conference on Computer Vision, pages 700–717. Springer, 2020.
  • [55]Suzhen Wang, Lincheng Li, Yu Ding, and Xin Yu.One-shot talking face generation from single-speaker audio-visual correlation learning.In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 2531–2539, 2022.
  • [56]Ting-Chun Wang, Arun Mallya, and Ming-Yu Liu.One-shot free-view neural talking-head synthesis for video conferencing.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10039–10049, 2021.
  • [57]Yi Yang, Yueting Zhuang, and Yunhe Pan.Multiple knowledge representation for big data artificial intelligence: framework, applications, and case studies.Frontiers of Information Technology & Electronic Engineering, 22(12):1551–1558, 2021.
  • [58]Zongxin Yang, Yunchao Wei, and Yi Yang.Associating objects with transformers for video object segmentation.Advances in Neural Information Processing Systems, 34, 2021.
  • [59]Zongxin Yang and Yi Yang.Decoupling features in hierarchical propagation for video object segmentation.Advances in Neural Information Processing Systems, 2022.
  • [60]Stefanos Zafeiriou, Dimitrios Kollias, Mihalis A Nicolaou, Athanasios Papaioannou, Guoying Zhao, and Irene Kotsia.Aff-wild: Valence and arousal ‘in-the-wild’challenge.In Computer Vision and Pattern Recognition Workshops (CVPRW), 2017 IEEE Conference on, pages 1980–1987. IEEE, 2017.
  • [61]Jeffrey O Zhang, Alexander Sax, Amir Zamir, Leonidas Guibas, and Jitendra Malik.Side-tuning: a baseline for network adaptation via additive side networks.In European Conference on Computer Vision, pages 698–714. Springer, 2020.
  • [62]Yufeng Zheng, Victoria Fernández Abrevaya, Marcel C Bühler, Xu Chen, Michael J Black, and Otmar Hilliges.Im avatar: Implicit morphable head avatars from videos.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13545–13555, 2022.
  • [63]Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang.Talking face generation by adversarially disentangled audio-visual representation.In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 9299–9306, 2019.
  • [64]Hang Zhou, Yasheng Sun, Wayne Wu, Chen Change Loy, Xiaogang Wang, and Ziwei Liu.Pose-controllable talking face generation by implicitly modularized audio-visual representation.In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 4176–4186, 2021.
  • [65]Kaiyang Zhou, Jingkang Yang, Chen Change Loy, and Ziwei Liu.Conditional prompt learning for vision-language models.In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
  • [66]Kaiyang Zhou, Jingkang Yang, Chen Change Loy, and Ziwei Liu.Learning to prompt for vision-language models.International Journal of Computer Vision (IJCV), 2022.
  • [67]Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li.Makelttalk: speaker-aware talking-head animation.ACM Transactions on Graphics (TOG), 39(6):1–15, 2020.
  • [68]Feng Zhu, Zongxin Yang, Xin Yu, Yi Yang, and Yunchao Wei.Instance as identity: A generic online paradigm for video instance segmentation.In European Conference on Computer Vision, pages 524–540. Springer, 2022.

补充材料

附录 A网络详细信息

我们提供了网络架构和训练过程的更多详细信息。 应该注意的是,关键点检测器(𝐷𝑘)和 RePos-Net 网络主要源自 OSFV[56]。 欲了解更多信息,有兴趣的读者可以参考 OSFV[56]。

Refer to caption

图 9:EAT 产生的额外情绪表达。 EAT 产生真实多样的面部表情并具有相应的情绪引导。 请放大以获得更好的视图。 源图像来自 CREMA-D[6] 和 MakeItTalk[67]。

Refer to caption图 10:我们的 EAT 模型的更多网络架构。

Happy Angry Disgusted Fear Sad Neutral Surprised Contempt Average
Wav2Lip [43] 0.00 25.64 0.00 0.00 0.00 91.25 0.00 0.00 17.87
MakeItTalk [67] 0.00 25.64 0.00 0.00 0.00 75.00 0.00 0.00 15.23
AVCT [55] 0.83 25.64 0.00 0.00 0.00 69.38 0.00 10.08 15.64
EAMM [22] 23.33 84.48 9.40 0.00 0.00 98.13 94.02 72.27 49.85
Pretrain (Ours) 35.00 11.97 0.00 0.00 49.17 38.75 0.00 59.66 25.18
EAT (Ours) 84.17 100.00 48.72 16.52 49.17 100.00 100.00 94.96 75.43

表 7:MEAD 数据集中情绪分类的定量评估。音频到表达转换器。 我们使用音频到表情转换器 (A2ET) 将音频传输为 3D 潜在表情变形序列。 A2ET 由编码器和解码器组成,均具有 6 个 Transformer 层和 8 个头。 前馈层的维度为 1024。 每个词符都是一个 128 维的向量。 表情变形向量(𝐸𝑖)是通过中心帧𝑖的特征来预测的。 然而,直接优化 3D 表达动作会导致网络训练中出现收敛问题。 为了解决这个问题并弥合 3D 表达变形和音频特征之间的差距,我们使用主成分分析 (PCA) 将 𝐸𝑖 的维数从 45 减少到 32。 具体来说,我们从训练集中计算主特征值矩阵 𝑈 和平均向量 𝑀。 然后,通过使用以下方程投影预测的 PCA 来获得表达变形向量:

$$𝐸𝑖=𝑃​𝐸𝑖∗𝑈𝑇+𝑀, $$ (8)

其中𝑃​𝐸𝑖是预测的 PCA,𝐸𝑖是表情变形,用于修改中性 3D 关键点以生成表情面部。 由于关键点的数量为 15,因此𝐸𝑖的形状为(15, 3)。

情感映射器。 我们提出了一种情感映射器,它可以生成情感标记来指导情感表达的生成。 如图10(a)所示,情感映射器𝑀由几个共享和非共享的多层感知器(MLP)层组成。 它采用 16 维潜在代码 𝑧 作为输入,并输出七个情感标记 $𝑒0、𝑒1、⋯、𝑒6$. 第一个词符𝑒0作为情感适应模块(EAM)的情感指导,修改音频到表情转换器(A2ET)的特征。 其余六个标记$𝑒1、⋯、𝑒6$被馈送到 A2ET 相应的 Transformer 层作为深层情感提示。 然后,情绪变形网络 (EDN) 使用所有这些标记和潜在源表示来生成情绪变形 $Δ​𝐸$。

情绪变形网络。 情感变形网络 (EDN) 使用与 A2ET 编码器相同的架构来学习情感变形 Δ​𝐸,该编码器具有六个 Transformer 层。 图10(b)显示了 EDN 的输入和输出。 它将潜在源表示 𝑑 和情感引导标记 $𝑒0、𝑒1、⋯、𝑒6 $作为输入,并提取其特征$𝑓𝑑,𝑓𝑒0,⋯,𝑓𝑒6$。 然后将全局平均池化应用于情感相关特征$𝑓𝑒0、⋯、𝑓𝑒6$,并使用 MLP 层获得最终的情感变形$Δ​𝐸$.

情绪适应模块。 情绪适应模块(EAM)由两个多层感知器(MLP)组成。 如图10(c)所示,给定输入特征𝑥和情感词符$𝑒0$,我们提取权重向量𝛾 和使用 MLP 的偏差向量 𝛽。 它们与输入 𝑥 具有相同的维度。 通过通道乘法运算𝐹𝑠和通道加法,我们得到输出𝑥′。

Weight PSNR↑ M/F-LMD↓ Sync↑ Accemo
w/o 21.49 2.27/2.46 8.02 76
EAT 21.79 2.22/2.43 8.22 67

表 8:EDN 权重初始化的消融研究。 使用 A2ET 编码器对 EDN 进行权重初始化可提高 EAT 的性能。Refer to caption

图 11:更多定性结果。 我们与更多基线进行比较,例如 MakeItTalk [67]、Wav2Lip [43] 和我们的预训练模型。Refer to caption

图 12:情感插值。 最上面一行是𝐴​𝑛​𝑔​𝑟​𝑦和𝑆​𝑢​𝑟​𝑝​𝑟​𝑖​𝑠​𝑒​𝑑之间的情感插值结果。 底行是𝐶​𝑜​𝑛​𝑡​𝑒​𝑚​𝑝​𝑡和𝑆​𝑎​𝑑之间的结果。 中性面孔来自 MEAD [54]参数效率分析。 与整个网络相比,我们的深层情感提示、EDN 和 EAM 仅需要大约 7% 的参数。 情绪映射器可以生成八种情绪的深层情绪提示,拥有大部分参数。 此外,EDN 和 EAM 消耗不到 2%。 这些参数是 13.9M。 这是 EAMM [22] 情感网络的一半,有 2790 万个参数。

附录 B培训和测试详细信息

训练详情。 我们使用 MEAD 数据集和来自 Voxceleb2 [11] 的 8k 情感视频片段以及各种面部表情来学习增强的潜在关键点。 我们还使用来自 AffectNet [40] 的大约 21k 情感图像来训练情感表达生成。 由于缺乏相应的中性面孔,我们使用 Ganimation [44] 生成与情感图像配对的中性面孔。 我们使用 Adam [28]、$𝛽1=0.5 $和 $𝛽2=0.999 $来训练 EAT。 A2ET 的学习率设置为 1.5×10−4,其他模块的学习率设置为 2×10−4。 在第一阶段,我们首先仅在潜在损失的情况下训练 A2ET 以获得良好的初始化,然后在完全损失的情况下进行训练。 为了提高泛化能力,我们使用 Voxceleb2 和 MEAD 数据集,其中包含约 225k 视频剪辑。 在第二阶段,我们仅使用 MEAD 数据集(包含约 10k 视频片段)来微调高效的适应模块。 我们在 LRW [12] 和 MEAD [54] 数据集上测试我们的模型。

测试细节和协议。 测试 LRW 时,输入是第一帧,变换从第一帧开始。 因此,使用潜在关键点的相对偏移。 在测试 MEAD 时,由于面部表情的变化与中性源图像无关,因此使用预测的潜在关键点。

为了确保准确的评估,我们在计算这些指标之前裁剪并对齐[7]人脸:PSNR、SSIM、FID、M-LMD 和 F-LMD。 至于同步置信度,我们参考 PC-AVS[64]对生成的视频进行预处理。

Refer to caption

图 13:EAT 每个组件的可视化。Refer to caption

图 14:MEAD 轮廓面的可视化。Refer to caption

图 15:失败案例。 驾驶音频和姿势来自第一排的视频。 第二行和第三行显示带有𝑆​𝑢​𝑟​𝑝​𝑟​𝑖​𝑠​𝑒​𝑑情感引导的生成结果。 中性面孔来自 MakeItTalk [67],驾驶视频来自 LRW [12]。

附录 C其他实验结果

额外的基线结果。 如图11所示,我们将 EAT 结果与几种基线方法进行了比较。 我们的结果比 MakeItTalk [67] 和 Wav2Lip [43] 的结果更令人愉快,它们不考虑说话者的情感表达。 此外,与预训练的 A2ET 网络相比,我们的 EAT 实现了情绪控制。 补充材料中包含视频以供参考。

各种情绪表达为了验证 EAT 生成的情绪表达的多样性,我们在图 9 中呈现了六种不同的情绪结果。 与𝑁​𝑒​𝑢​𝑡​𝑟​𝑎​𝑙情绪相比,情绪表达会导致唇角、眼睛、眉毛等面部元素发生不同的修饰。 我们在表7中展示了情绪分类的定量结果。 我们注意到,与其他方法相比,EAT 在 𝐻​𝑎​𝑝​𝑝​𝑦、𝑆​𝑎​𝑑、𝐷​𝑖​𝑠​𝑔​𝑢​𝑠​𝑡​𝑒​𝑑 和 𝐶​𝑜​𝑛​𝑡​𝑒​𝑚​𝑝​𝑡 上的效果明显更好。 这是因为我们的方法可以捕捉嘴部细节,并且这些情绪可以通过嘴唇更清晰地反映。 至于 𝑁​𝑒​𝑢​𝑡​𝑟​𝑎​𝑙、𝐴​𝑛​𝑔​𝑟​𝑦 和 𝑆​𝑢​𝑟​𝑝​𝑟​𝑖​𝑠​𝑒​𝑑,EAMM [22] 表现良好,因为这些情绪在眼睛上更加明显,并且眉毛。 而 EAT 也能在这些情绪上取得更好的表现。 然而,所有方法在𝐹​𝑒​𝑎​𝑟情感上表现都很差。 可能是因为𝐹​𝑒​𝑎​𝑟和𝑆​𝑢​𝑟​𝑝​𝑟​𝑖​𝑠​𝑒很相似,很难区分。

情感插值。 我们在 MEAD 测试集上进行情感引导插值,以验证情感映射器学习到的潜在空间是连续的,如图12所示。

额外的消融研究。 我们对 EDN 的权重初始化进行了进一步的消融研究,我们的结果如表 8 所示,表明使用 A2ET 编码器的权重初始化可以加快收敛速度​​,并提高视频质量和性能方面的性能。视听同步。

对 EAT 各组成部分进行可视化分析。 为了分析我们的模型中每个组成部分的效果,我们在图13中展示了(A)、(B)和(C)的恐惧情绪结果,相应的准确率分别为 38.46%、30.77% 和 15.38%。 深刻的情感提示有助于产生偏离基本事实(GT)的强烈情感表达。 通过结合 EDM 和 EAM,我们在 PSNR/SSIM 方面实现了更高的 GT 保真度和更高的图像质量。 这归功于 EDM 和 EAM 对于情感数据的学习能力。 然而,它会导致情绪强度和准确性降低。

轮廓面上的可视化。 为了评估 3D 头部说话生成中增强潜在表示的能力,如图 14 所示,我们将 MEAD 的侧面生成的头部说话帧可视化。 我们用 𝑆​𝑢​𝑝​𝑟​𝑖​𝑠​𝑒​𝑑 和 𝐻​𝑎​𝑝​𝑝​𝑦 情绪测试从左 30 度和右 60 度捕获的面部。

附录 D限制和未来工作。

虽然 EAT 能够在情感指导下生成情感化的头部特写视频,但仍然存在一些局限性。 首先,情感训练数据中背景和头部姿势的多样性会影响我们的 EAT 的泛化能力。 如图15所示,在这些野外图像中,额头的皱纹并不明显。 这个问题可以通过更自然和非表演的情感数据[60,30,4]和头部优先的表示来解决,例如 FLAME[62]。 其次,需要有效的指导文本来实现零样本生成。 这可能是由于在图像-文本对上训练的模型捕获情感表达的能力有限,这可能会影响零样本学习的性能。 第三,我们的工作中没有考虑眼睛区域,例如眨眼[53]和注视方向[16]。 最后,离散的情绪引导限制了我们模型的表示能力。 需要注意的是,面部表情并不总是代表内心情绪状态[3]。 更完善的情感理论,例如价唤醒模型,可能有助于产生更真实的情感。 我们把这些问题留给以后的工作。

附录 E道德考虑。

我们的研究旨在用于虚拟人类研究和娱乐。 然而,情感头像生成算法存在被滥用的风险。 我们强烈建议将生成的头部说话视频标记为“假”。 一方面,我们的工作证明了情感人物谈话的生成在技术上是可行的。 另一方面,虚假视频检测[14, 38]引起了广泛关注。 我们很乐意协助相关研究的发展。