[论文翻译]音频驱动头部说话合成的高效情感适应

摘要

音频驱动的头部说话合成是虚拟人相关应用的热门研究课题。然而，现有训练方法不灵活且效率低下，需要昂贵的端到端将指导视频中的情绪转移到头部说话的预测，这是很大的限制。在这项工作中，我们提出了音频驱动的说话头的情感适应（EAT）方法，该方法通过参数有效的适应，以经济高效的方式将情感不可知的说话头模型转换为情感可控的模型。我们的方法利用预先训练的与情绪无关的说话 Transformer ，并从不同的角度引入三种轻量级适应（深层情绪提示、情绪变形网络和情绪适应模块），以实现精确和现实的情绪控制。我们的实验表明，我们的方法在广泛使用的基准（包括 LRW 和 MEAD）上实现了最先进的性能。此外，即使在情感视频稀缺或不存在的情况下，我们的参数高效适应也表现出出色的泛化训练能力。

项目网址：https://yuangan.github.io/eat/

1简介

近年来，合成逼真的说话头像因其在工业中的广泛应用而受到越来越多的关注，例如数字人体动画[20,22,55]、视觉配音[43] ，以及视频内容创建[50]。音频驱动的头像生成旨在生成与语音同步的逼真头像视频。然而，与言语不同，人类通过情感表达来传达意图。因此，生成情感头像对于提高现实应用中头像的保真度非常重要。为了解决这个开放性问题，在构建多知识表示时必须考虑各种形式的知识（例如人头模型、情感、音频和视觉）[57]。

Refer to caption

图 1：高效的情感人物谈话生成。 (a) 之前的工作通过增强情感驾驶视频来训练或微调整个网络。 (b) 我们的 EAT 通过灵活的指导，包括情感提示或文本引导的 CLIP [45] 监督，通过轻量级的调整，将情绪不可知的头部说话模型转变为情绪可控的模型。

以前的一次性头像生成方法[67,43,55]专注于实现情绪不可知的头像的视听同步，这是现实头像的一种特殊情况。最近的作品[23,22,34]注重生成具有情感意识的谈话者。 GC-AVT [34] 和 EAMM [22] 是使用驱动情感视频和姿势引导视频生成情感视频的两种方法。 GC-AVT[34]通过精细的预处理设计，实现了对说话人的表情、语音内容和姿势的显式控制。 EAMM [22] 通过添加增强的情感源视频来合成一次性情感人物。由于驱动视频会给嘴部形状带来语义歧义，因此 GC-AVT 用相邻帧替换嘴部部分，而 EAMM 通过使用数据增强忽略驱动情感视频的嘴部部分。此外，这些方法需要以高成本训练或微调整个网络，以生成情感人物。

尽管情感感知方法在一次性谈话一代中取得了进展，但它们在两个关键方面缺乏深入的思考。
(1)架构效率。作为头像生成的子任务，训练或微调整个情感头像生成网络的参数效率低下。此外，由于大规模的情绪不可知的头部说话数据比情绪数据更容易获得，因此值得考虑如何有效地重用从情绪不可知的数据中学到的知识。

(2)指导灵活性。以前的方法更喜欢将驾驶视频传输到目标说话的头像，而不是直接学习情感表征。在实践中，找到合适的情感驱动视频需要考虑分辨率、遮挡甚至情感驱动视频和音频的长度等因素。此外，先前的研究忽略了嘴唇形状，这可能导致不切实际的情绪表达。例如，根据 FACS [18, 27]，凹陷的唇角是悲伤表情的关键组成部分之一。

为了解决上述限制，理想的方法应该能够将预训练的头部特写模型高效、灵活地转移到具有轻量级情感指导的情感头部头部生成任务，如图1所示。有两个关键优势。首先，利用重用的知识，我们可以轻松、轻松地将说话人模型应用于情感说话人生成任务。其次，获得轻量级指导更简单，更适合实际场景，例如文本引导的零样本表达编辑。

为了实现上述范例，我们提出了一种用于音频驱动的谈话头（EAT）生成的有效情绪适应框架，该框架涉及两个阶段。在第一阶段，我们增强无监督 3D 潜在关键点表示 [56] 以捕获情感表达。然后，我们介绍音频到表达转换器 (A2ET)，它学习使用大规模头部说话数据集将音频映射到增强的 3D 潜在关键点。在第二阶段，我们提出可学习的指导和适应模块来指导情绪表达的生成。其中包括用于参数高效情绪适应的深度情绪提示、用于学习面部潜在表示的情绪变形的轻量级情绪变形网络（EDN）以及用于增强视觉质量的即插即用情绪适应模块（EAM）。我们的方法能够将传统的头部说话模型快速转移到具有高质量结果的情感生成任务，并支持使用图像文本模型[45]进行零样本表达编辑。

我们进行了大量的实验来评估 EAT 对情绪化的谈话者生成的有效性。与基准竞争对手相比，EAT 在没有引导情感视频的情况下实现了卓越的性能。此外，基于预训练的说话人模型，我们只需 25% 的训练数据即可在 2 小时内获得最先进的 (SOTA) 性能。结果表明，我们的方法能够生成更真实的头部说话视频。并且仅通过情感的文本描述，我们就可以实现零样本的谈话编辑。

总之，我们工作的主要贡献如下：

我们的研究引入了一种新的两阶段范式，称为 EAT，用于解决情绪化的谈话任务。我们的实验表明，在一次性头部说话生成任务中，这种范式在情绪操纵和视频质量方面都优于以前的方法。
我们提出的架构包括深层情感提示、情感变形网络和情感适应模块。这种设计能够实现从生成没有情感表达的头像到生成有情感表达的头像的高效转换。
据我们所知，我们的研究是第一个为头部说话适应引入灵活指导的研究。通过利用图文模型，我们可以实现头部说话视频的零样本表情编辑，超越了之前方法的能力。

2相关工作

之前的作品在视听同步方面都取得了不俗的表现。然而，仍然存在一些挑战，例如基于大规模预训练的说话人模型的高效知识转移。

音频驱动的头部说话生成。基于深度学习的音频驱动的头部说话生成[10,51,63,7,67,20,55,64]近年来引起了广泛的关注。 Chen 等人 [7]设计了一种两阶段结构，利用面部标志作为中间表示 MakeItTalk [67]生成一次性基于解开的语音和说话者的谈话头。 PC-AVS [64] 生成具有姿势控制的任意头部说话。

继 Transformer [52] 在 NLP [15, 46] 领域的开创性工作之后，最近的工作在视频相关任务上取得了显着的进展，包括动作识别 [ 2, 19, 36]，视频分割[58, 59, 68, 41]，跨模型理解[32, 8]等。在头部说话领域，AVCT[55]设计了一个用于生成头部说话视频的视听相关 Transformer。在这项工作中，我们增强了 3D 潜在关键点并应用 Transformer 来生成更真实的头像。

Refer to caption

图 2：EAT 模型概述。 (a) 在第一阶段，音频到表情转换器 (A2ET) 将潜在的源图像表示、源音频和头部姿势序列传输为 3D 表情变形。（b）在第二阶段，情感引导被注入 A2ET、情感变形网络（EDN）和情感适应模块（EAM）中，用于生成情感人物头像，以虚线表示。 (c) RePos-Net 采用 3D 源关键点 𝐾𝑠 和驱动关键点 𝐾𝑖 来生成帧。

情感感知的头部说话一代。最近，人们对情感人物头像生成进行了研究，以实现真实人物头像生成。 Pumarola 等人 [44]引入了一种无监督框架来生成具有特定表情的面部视频。 EVP [23]提出情感视频肖像，以根据源视频产生更生动的结果。然而，最近出现了一次性情绪化的谈话一代。 Sinha [49] 通过图卷积生成姿势固定的情感人物。 GC-AVT [34] 通过精细的预处理设计训练情绪和姿势可控模型。 EAMM [22] 将一次性情感头像与增强情感源视频合成在一起。在我们的工作中，我们基于预训练的头部说话模型，通过有效的适应来实现情绪控制。

高效微调。人们已经研究了知识转移的有效微调，并提出了许多技术，包括残差适配器[47]、偏差调整[5]和侧面调整[61]. 最近，提示[35]在视觉任务中引起了越来越多的关注。受语言模型中提示调整的启发，最近在各种视觉任务中提出了提示调整[45,24,66,25,65,17,33]以提高有效性和效率。 CoOp [66] 和 VPT [25] 利用可学习的提示向量并实现更好的性能。此外，为了提高通用性，CoCoOp [65] 设计了一个轻量级网络来学习每个图像的提示向量。在我们的工作中，我们引入了深层情感提示、情感变形网络和情感适应模块，以实现高效且有效的情感相关知识迁移。

3方法

为了避免先前方法[22, 34]昂贵的端到端训练和微调，我们提出了一个两阶段范例，即音频驱动的 Talking-head 的高效情感适应（EAT）生成方法。首先，我们介绍使用音频到表达转换器 (A2ET) 的增强型 3D 潜在表示和情绪不可知的说话头预训练。（第 3.1 节）其次，我们提出了一种参数有效的情绪适应方法，可以快速调整预训练的头部特写模型来执行情绪头部特写任务。该方法包括深层情感提示、情感变形网络（EDN）和情感适应模块（EAM）。（第3.2)最后，我们详细介绍了我们的训练目标。（第 3.3 节）

Refer to caption

图 3：RePos-Net 和 EAM 的架构。RePos-Net 从源图像中提取 3D 外观特征 $𝑓𝑠$。给定 3D 源关键点和驱动关键点，RePos-Net 预测 3D 流扭曲矩阵 𝑤 以转换 3D 特征 $𝑓𝑠$ 并生成输出帧。 EAM 通过学习到的 𝛾 和 𝛽 将情感指导转移到情绪调节特征。

3.1与情绪无关的预训练

与情感说话者[34, 22]的低效端到端训练相比，我们探索利用从在与情感无关的数据集上预先训练的适应性模型中获得的知识。该模型可以快速适应下游任务，包括情感人物谈话的生成。为了实现这种与情绪无关的相关模型，我们首先增强 3D 潜在表示[56]以更好地捕捉微妙的表达。然后引入音频到表达转换器 (A2ET) 来捕获音频剪辑的时间上下文，生成用于生成说话人的视听同步 3D 潜在表达序列，并支持有效的情感适应（第 3.3)。

3.1.1增强的潜在表示。

给定一个会说话的头部框架 𝑖，无监督学习的 3D 潜在关键点 $𝐾𝑖$ 由四个部分组成：特定于身份的规范关键点 $𝐾𝑐$，旋转矩阵$𝑅𝑖$、平移$𝑇𝑖$和表达式变形$𝐸𝑖$。然后将这些组件与以下等式组合：

	$$𝐾𝑖=𝑅𝑖𝐾𝑐+𝑇𝑖+𝐸𝑖.$$		(1)

基于 3D 潜在关键点，RePosition Network（RePos-Net）[56]可以将面部表情从一个人转移到另一个人，如图3. 然而，我们观察到这种转移未能考虑其他面部表情元素，例如眉毛、唇角等。因此，我们通过以下修改增强了潜在表示，以实现更真实的头部说话：

我们删除了 OSFV [56] 中的变形先验损失，这会惩罚关键点变形的大小。这使得我们的潜在关键点能够捕捉到面部表情更微妙的变化。
我们使用 MEAD 数据集 [54] 从相同身份的中性和情感视频中获取标记和配对的面部数据。这有助于网络从表情变化中学习更具表现力的面孔。
为了避免与表情无关的背景的影响，我们只计算面部部分的损失。我们使用 Effectnet [40] 数据集来增强配对数据，以提高普遍性。

这些修改增强了学习到的 3D 潜在关键点的表示能力，这是我们 A2ET 模型的目标。

3.1.2音频到表达式转换器。

由于 3D 潜在关键点特定于源身份，并且比 2D 潜在关键点[48,55,22]更复杂，因此直接预测 3D 关键点序列是一项具有挑战性的任务。我们注意到面部表情主要由 3D 潜在关键点中的表情变形 $𝐸𝑖 $表示。因此，A2ET 的目的是学习视听同步表情变形，它由视听特征提取和表情变形预测组成。

视听特征提取。之前的工作[55]使用 Transformer 和音素生成与情绪无关的说话头像。然而，训练 Transformer 需要大量数据集，并且在嘈杂或带口音的语音中音素提取具有挑战性。为了解决这些限制，我们在大型数据集 Voxceleb2 [11] 上训练 A2ET 模型，并提取语音特征 $𝑆1:𝑛$ 和声学特征 $𝐴1:𝑛$ 作为输入。音频语义特征𝑆1:𝑛是通过语音识别模型[1]从 MFCC 特征中提取的。为了导出声学特征$𝐴1:𝑛$，我们设计了一个音频编码器来对使用 80 个梅尔箱和 1025 个频率箱提取的梅尔声谱图进行编码。

如图2(a)所示，给定帧𝑖，我们从$2𝑤+1$音频帧中提取其语义上下文特征。最初，语音特征$𝑆𝑖−𝑤:𝑖+𝑤$和头部姿势特征$𝑃𝑖−𝑤:𝑖+𝑤$被转换为语音标记。帧𝑖的 6DoF 被编码为姿势词符𝑝。 A2ET 编码器将这些标记作为输入。随后，为了捕捉微妙的嘴巴运动，我们使用音频编码器 [31] 和关键点检测器 $𝐷𝑘$ 对声学特征 $𝐴𝑖−𝑤:𝑖+𝑤 $和潜在源图像表示进行编码。这些表示被融合以获得声学标记，A2ET 解码器使用这些标记来输出 $2𝑤+1$ 标记的特征。

Refer to caption

图 4：一次性情感谈话头生成案例的定性结果。快乐和惊讶的结果在左边和右边。最上面一行显示了身份和驱动情感。第二行显示内容的真实框架。 LRW [12] 的左源面。来自 CREMA-D [6] 的右脸。表达变形预测。由𝑘 3D 偏移组成的表情变形𝐸𝑖可以根据中心帧𝑖的特征进行预测，但优化 3D 表情运动会导致收敛问题。我们观察到，通过自我监督学习到的 3D 关键点表现出固有的相互依赖性，只有少数关键点影响面部表情。为了解决这个问题，采用𝐸𝑖的主成分分析（PCA）来降低维度并消除不必要的信息。然后我们可以根据音频特征预测 3D 表情变形。

3.2高效的情绪适应

传统的音频驱动的头像方法[7,67,20,55,64]在与情绪无关的头像生成任务中取得了令人印象深刻的进步。然而，要获得真实的谈话人物，情感表达至关重要。因此，我们提出了一种新颖的方法，其中包括三个参数有效的模块，用于从情绪不可知模型中快速进行情绪适应。这些模块包括深度情绪提示、情绪变形网络 (EDN) 和情绪适应模块 (EAM)，专门设计用于实现预训练 A2ET 的高效情绪适应。我们的方法允许轻量级的调整，这为指导下游任务提供了灵活性，例如零样本表达编辑。

情感引导。一个简单的想法是使用以情绪为条件的可学习指导来生成情绪化的谈话者。我们假设每种情绪类型都属于潜在空间中的一个不同的子域。如图2（b）所示，采用映射网络𝑀来提取带有潜在代码𝑧∈𝒰16的情感条件指导。潜在代码是从高斯分布中采样的，该分布常用于生成模型[29, 9]。这种情绪引导用于引导情绪表达的产生。

深刻的情感提示。为了实现参数高效的情感适应，我们将指导作为 A2ET Transformer 层的附加输入词符，如图2(a)所示。我们分别在 A2ET Transformer 架构中引入浅层和深层情感提示，浅层提示添加到第一层，深层提示添加到之后的每一层。表 4 中的结果表明，与浅层提示相比，深层提示可以带来更好的情绪表达传递。然而，我们也观察到，结合情感提示可能会对视听同步产生不利影响。使用固定的 Transformer 权重生成情感表达，同时确保视听同步可能会对提示提出挑战。

			LRW [12]				MEAD [54]
	PSNR/SSIM↑	FID↓	SyncNet↑	M/F-LMD↓	PSNR/SSIM↑	FID↓	SyncNet↑	M/F-LMD↓	Acc~emo~↑
ATVG [7]	18.40/0.64	51.56	2.73	2.69/3.31	17.64/0.56	99.42	1.80	2.77/3.74	17.36
Wav2Lip [43]	22.80/0.73	7.44	7.59	1.58/2.47	19.12/0.57	67.49	8.97	3.11/3.71	17.87
MakeItTalk [67]	21.67/0.69	3.37	3.28	2.16/2.99	18.79/0.55	51.88	5.28	3.61/4.00	15.23
AVCT [55]	21.72/0.68	2.01	4.63	2.55/3.23	18.43/0.54	39.18	6.02	3.82/4.33	15.64
PC-AVS [64]	23.32/0.72	4.64	7.36	1.54/2.11	20.60/0.61	53.04	8.60	2.66/2.70	11.88
EAMM [22]	22.34/0.71	6.44	4.67	1.81/2.37	20.55/0.66	22.38	6.62	2.19/2.55	49.85
Pretrain (Ours)	23.97/0.76	1.89	6.30	1.95/2.12	20.32/0.61	26.71	8.09	2.83/2.99	25.18
EAT (Ours)	24.11/0.77	3.52	6.22	1.79/2.08	21.75/0.68	19.69	8.28	2.25/2.47	75.43
Ground Truth	∞ /1.00	0	7.06	0.00/0.00	∞ /1.00	0	7.76	0.00/0.00	84.37

表格 1：与 LRW [12] 和 MEAD [54] 上最先进的方法进行定量比较。我们展示了 LRW 和 MEAD 上预训练的 A2ET 和完整 EAT 模型的结果。 M/F-LMD 表示嘴和脸的标志距离。 “↑”：越高越好。 “↓”：越低越好。红色：第一个分数。蓝色：第二个分数。情绪变形网络。我们观察到等式中解耦的 3D 隐式表示。 1表现出线性可加性。此外，情绪化的谈话人物表现出传统谈话人物所不存在的情感变形。为了补充 $𝐸𝑖$，一种直观的方法是包含一个情感表达变形项：

	$$𝐸𝑖′=𝐸𝑖+Δ𝐸𝑖, $$		(2)

其中$𝐸𝑖′$表示情绪表情变形，$𝐸𝑖$表示 A2ET 预测的语音相关表情变形，$Δ𝐸𝑖$表示情绪相关表情变形。为了预测$Δ𝐸𝑖$，我们设计了一个称为情绪变形网络（EDN）的子网络，如图2（b）所示。 EDN 利用 A2ET 编码器架构通过情感指导和源潜在表示词符来预测 $Δ𝐸𝑖$。为了加速适应，我们使用预训练的 A2ET 编码器初始化 EDN。要使用 $𝐸𝑖′$ 更新$ 𝐸𝑖$，我们可以使用等式 1 获得情感 3D 潜在关键点。
1。

情绪适应模块。为了提高视觉质量，我们设计了一个轻量级、即插即用的适应模块，称为情绪适应模块（EAM），它可以生成情绪调节的特征。如图3所示，该模块接收引导嵌入𝑒，并通过两个全连接（FC）层对其进行处理，以获得一组通道权重𝛾 和偏差 𝛽。我们使用 tanh 激活函数将 𝛾 和 𝛽 值限制在 [-1, 1] 范围内：

	$$𝛾,𝛽=tanh⁡(FC(ReLU(FC(𝑒)))). $$		(3)

一旦我们获得了𝛾和𝛽，我们就可以输入特征𝑥来获得情感特征，其计算公式如下：

	$$𝐸𝐴𝑀(𝑥)=𝐹𝑠(1+𝛾,𝑥)+𝛽, $$		(4)

其中 𝐹𝑠 表示通道乘法。如图2所示，EAM 以及音频和图像特征提取器可以插入到 RePos-Net 中。

Method	Wav2Lip	PC-AVS	EAMM	EAT	GT
Lip-sync	3.86	3.90	3.64	3.99	4.59
Quality	2.69	3.19	2.89	3.35	4.59
Acc~emo~	13%	20%	35%	50%	66%

表 2：CREMA-D 和 LRW 的用户研究。 Lip-sync 和 Quality 代表视听同步和视觉质量。情绪分类准确性（Acc~emo~ )评估产生情绪表达的方法的有效性。零样本表达式编辑。由于我们的 EAT 的快速适应能力，我们可以通过从大规模视觉语言相关模型 CLIP [45] 中提取知识来实现零样本文本引导的说话头表情编辑。这种独特的能力使我们的工作与最新的研究[22]区分开来，因为它消除了对情感训练数据的需求，并能够推广到需要罕见表达的应用程序。

具体来说，我们的目标是利用 CLIP 损失来学习与文本描述的表达相关的情感指导。为了实现这一点，我们从目标视频中提取头部姿势、源音频和第一帧作为输入。此外，还采用目标表达描述进行微调。利用改进的 EAT 模型和我们的训练损失，我们添加了一个额外 CLIP 损失[42]来仅微调映射网络和 EAM 模块。具体来说，我们使用 CLIP 的图像编码器从预测的说话面孔中提取图像嵌入，并使用其文本编码器从描述中提取文本嵌入。然后，我们迭代优化图像和文本嵌入之间的距离，以将生成的说话面孔与输入文本对齐。

3.3培训目标

对于监督学习，损失计算如下：

	$$ℒ=𝜆𝑙𝑎𝑡ℒ𝑙𝑎𝑡+𝜆𝑠𝑦𝑛𝑐ℒ𝑠𝑦𝑛𝑐+𝜆𝑟𝑒𝑐ℒ𝑟𝑒𝑐, $$		(5)

其中 $𝜆𝑙𝑎𝑡$、$𝜆𝑠𝑦𝑛𝑐$ 和 $𝜆𝑟𝑒𝑐$ 是重新加权相应项的超参数。至于零样本编辑，由于没有真实视频，我们用 CLIP 损失替换 $𝜆𝑟𝑒𝑐ℒ𝑟𝑒𝑐$。下面，我们将详细讨论每项训练损失。

潜在损失。应用潜在损失来优化预测的潜在关键点：

	$$ℒ𝑙𝑎𝑡=1𝑁∑𝑖=1𝑁(‖𝑃𝐸𝑖−𝑃𝐸^𝑖‖22+‖𝐾𝑖−𝐾^𝑖‖22), $$		(6)

其中 𝑁 表示每个批次中采样的音频剪辑的帧长度。 𝑃𝐸𝑖表示𝑖帧中表达变形的预测 PCA。 $𝐾𝑖 $是根据方程式传输的 3D 潜在关键点。 1。 $𝑃𝐸^𝑖$和$𝐾^𝑖$是框架𝑖对应的 ground-truth。由于𝑃𝑖中不包含情感表达变形$Δ𝐸𝑖$，因此我们仅使用式（1）中 3D 关键点的损失。 6 同时训练 EDN。

同步损失。 Wav2Lip[43]中引入了同步损失。基于 SyncNet [13]的结构，我们训练了一个专家来区分中性和情感数据集中的视听同步。对于每批中的采样音频片段，我们使用以下公式计算生成视频的同步损失：

	$$ ℒsync=−log⁡(𝑣⋅𝑠𝑚𝑎𝑥(∥𝑣∥2⋅∥𝑠∥2,𝜖)). $$		(7)

输入语音嵌入𝑠和生成的视频嵌入𝑣分别由 SyncNet 中的语音编码器和图像编码器提取。

重建损失。为了改善表情生成，我们仅在面部区域采用$ℒ1$重建损失。此外，为了生成更清晰的帧，我们使用预训练的 VGG19 模型将感知损失 [26] 应用于整个帧。

CLIP 损失。 CLIP 损失使用预训练的 CLIP 模型计算生成的人脸嵌入与文本描述之间的相似度。具体来说，CLIP 损失是通过图像和文本的归一化嵌入之间的余弦相似度来计算的。

4实验

4.1实验设置

实施细节。视频采样率为 25 FPS，音频采样率为 16KHz。视频被裁剪并调整为 256×256。为了同步音频特征和视频，我们通过将窗口长度和跳跃长度配置为 640 来提取梅尔频谱图[37]。 EAT 中使用的关键点 𝑘 数量为 15。情感提示的映射网络由针对每种情感的共享四个 MLP 层和非共享四个 MLP 层组成。我们增强 3D 潜在关键点 48 小时，并预训练具有增强潜在关键点的 A2ET 48 小时。然后我们对 EAT 架构进行了 6 个小时的微调。我们的工作基于 4 个 NVIDIA 3090 GPU。

数据集。训练数据集由来自 VoxCeleb2 [11] 和 MEAD [54] 的视频组成。 MEAD 是一款高品质情感头像视频集，包含 8 种情感。为了确保公平比较，我们使用与 EAMM [22] 相同的测试身份，根据身份将 MEAD 数据集分为训练集和测试集。为了学习较大的头部姿势变化，我们使用 Emotion-FAN [39] 从 VoxCeleb2 [11] 数据集中选择了大约 8,000 个情感视频进行微调。为了获得增强的 3D 关键点的 PCA，我们从训练集中提取了最大的 32 个特征值矩阵和 2,500 个视频的平均值。

基线。我们在 LRW [12] 和 MEAD [54] 测试集上与 SOTA 一次性说话头生成方法进行比较。它们是 ATVG [7]、Wav2Lip [43]、MakeItTalk [67]、AVCT [55]、 PC-AVS [64] 和 EAMM [22]。

Refer to caption

图 5：调整效率。我们的 EAT 展现出卓越的调优效率，在一小时的微调会话中仅使用 50% MEAD 数据，甚至在两小时的会话中仅使用 25% 的数据，即可实现最先进的训练性能。 Refer to caption

图 6：EAT 中参数的百分比。公制。我们使用以下指标评估合成情感视频的质量：

画面质量。我们利用 PSNR、SSIM 和 Frechet Inception Distance Score (FID) [21] 来衡量合成视频的图像质量。

视听同步。我们使用 SyncNet [13] 的置信度来评估合成视频的视听同步性。另外，嘴部标志点之间的距离（M-LMD）[7]用于表示语音内容一致性，而整个面部标志点之间的距离（F-LMD）则表示姿势和表情的准确性。

情感准确性。为了评估生成的情绪的情绪准确性（Acc~emo~ )，我们使用 MEAD 训练集调节 Emotion-Fan [39]。

4.2说话的一代

为了验证 EAT 的有效性，我们对情绪不可知论和情绪谈话头生成进行了实验。

与情绪无关的说话头生成。对于一次性的与情绪无关的说话人的生成，我们在 LRW 测试集上进行测试，该测试集包含 25k 个中性视频。我们将第一帧作为每个测试视频的源图像。如表 1 所示，我们的方法在与情绪无关的说话人生成的视觉质量方面优于其他方法。此外，我们的 EAT 可以提高预训练的头部说话模型的性能。 Wav2Lip 和 PC-AVS 存在过度拟合预训练唇形同步评分模型的风险，因为它们的同步分数超过了真实值。此外，Wav2Lip 仅生成口部，没有面部表情和头部姿势。

Refer to caption

图 7：基于 CLIP 的零样本编辑。表达式由“文本描述”提供。中性视频和源图像来自 LRW [12]。 Refer to caption

图 8：我们的 EAT 的其他零样本结果。情感表达由“文字描述”给出。每个文本的第一行显示编辑结果，第二行显示根据学习的指导生成的不同身份的说话头像。请参阅我们的视频了解更多详情。源图像来自 MEAD[54] 和 LRW[12]。

Method	PSNR↑	M/F-LMD↓	Sync↑	Acc~emo~↑
OSFV [56]	22.39	1.60/2.12	6.68	30
Enhanced	24.49	1.09/1.49	7.49	86

表 3：增强潜在表征的消融研究。为了验证我们增强的潜在表示的有效性，我们生成了由源图像驱动的情感视频和 MEAD 测试集中的情感视频。情绪化的谈话一代。我们按照 EAMM 的设置，在公开的 MEAD 测试集上比较情感说话人的生成。对于所有方法，中性源帧均来自 EAMM。

表 1 显示我们的 EAT 在大多数指标中都可以实现最佳性能。具体来说，与其他方法相比，EAT 实现了更好的视频质量和更高的情感准确性。这些发现支持了我们提出的方法所学习的情感表征的优越性。图4直观地展示了我们在一次性设置中产生真实且全面的情感表达的能力。请注意，即使使用真实 6DoF，AVCT [55] 也无法明确控制姿势。欲了解更多结果，请参阅我们的补充。

Prompt	PSNR↑	M/F-LMD↓	Sync↑	Acc~emo~↑
w/o	20.46	2.85/2.99	8.12	25
Shallow	21.19	2.50/2.63	7.63	57
Deep	21.23	2.36/2.48	7.83	84

表 4：提示的消融研究。为了验证浅层和深层情感提示的有效性，我们使用 MEAD 测试集中的源图像和情感视频制作视频。

4.3用户研究

为了评估使用野外图像生成的情感说话头像，我们对 14 名参与者进行了一项用户研究，以评估口型同步、视频质量和情感分类。最高分值是 5。为了确保图像集的多样性，我们从 CREMA-D 和 LRW 数据集中随机采样了 16 张图像，这些图像不包含在训练数据中。此外，我们使用 MEAD 测试集中的音频为每种方法生成了总共 32 个视频（4 × 8 种情感）。如表2所示，我们的方法在口型同步、视频质量和情感准确性方面取得了最佳分数，验证了我们的 EAT 架构在生成情感头像方面的有效性。此外，结果表明，表 1 中的同步值对于情绪化的头像来说是不准确的，因为 SyncNet 模型仅使用中性头像视频进行训练。更多野外结果可以在补充中找到。

4.4调优效率

在第二阶段的微调过程中，我们每半小时对 MEAD 测试集的一个子集进行定期测试。这使我们能够展示 EAT 的时间和数据效率。即使数据有限，EAT 也可以有效地使预训练的 A2ET 模型适应子任务。如图5所示，无论是全数据还是半数据，EAT 都能在 1 小时内超越 SOTA 结果。我们还可以在两小时内仅用四分之一的数据来实现可比的性能。此外，如图6所示，与预训练模型相比，情感适应模块仅需要 6.85% 的额外参数。深层情感提示占附加参数的 5.30%，EDN 占 1.17%，EAM 占 0.38%。这些结果证明了我们的 EAT 方法的有效性和效率。

Ablation	(A)	(B)	(C)	EAT
Prompt		✓	✓	✓
EDN			✓	✓
EAM				✓
PSNR↑	20.46	21.23	21.40	21.79
M/F-LMD↓	2.85/2.99	2.36/2.48	2.28/2.41	2.22/2.43
Sync↑	8.12	7.83	7.83	8.22
Acc~emo~↑	25	84	81	67

表 5：每个组件的消融研究。每个组件都有助于提高视频质量，从而验证其有效性。

ℒ𝑝𝑒𝑟	✓	✓	✓	✓
ℒ𝑙𝑎𝑡		✓	✓	✓
ℒ𝑠𝑦𝑛𝑐			✓	✓
ℒ1				✓
PSNR↑	21.52	21.61	21.31	21.79
Sync↑	5.50	5.66	8.13	8.22

表 6：每个损失的消融研究。每个损失都有助于视频质量或同步值的提高。

4.5零次表达式编辑

我们使用 CLIP[45]模型进行零样本表达编辑，生成新颖的情感头部说话视频，如图7所示。给定一个中性视频，我们将第一帧视为源图像，并通过文本描述编辑表达式。基于 EAT 架构，我们通过额外的 CLIP 损失来学习情感引导和 EAM [45]。我们注意到，文字描述将决定编辑性能，需要精心设计。此外，从一个视频和指导文本中学习的潜在代码也可以应用于另一视频。如图8所示，我们呈现了由学习的潜在代码操纵的不同身份结果。

4.6消融研究

为了评估 EAT 各个方面的有效性和重要性，我们对我们提出的架构和模块进行了多项消融研究。

增强的潜在表示。我们比较了我们提出的增强之前和之后的潜在表示。如表3所示，面部重现的优越性能表明我们的预训练模型可以捕捉比 OSFV [56]更广泛的情感面部运动，后者具有已在第 2 节中讨论过。 3.1.1。

提示。为了研究不同类型提示的效果，我们进行了浅层和深层情感提示的实验。表4显示，深层提示比浅层提示更好地学习情感表达变形，尽管它对同步有副作用。

每个组件。为了验证我们提出的模块的有效性，我们通过每次移除一个组件来进行消融实验。表5显示所有三个组件都可以提高视频质量。深刻的情感提示可以将谈话者的知识转移到情感谈话者的生成上，但会牺牲同步性。尽管深层的情感提示会导致强烈的情感表达，但输出结果却偏离了事实真相。通过结合 EDM 和 EAM，图像质量和对真实情况的保真度得到了增强，PSNR/SSIM 值的上升就证明了这一点。然而，这是以牺牲情绪强度和准确性为代价的。请参阅我们的补充材料进行视觉分析。

各有损失。如表6所示，我们对微调阶段的感知损失、潜在损失、同步损失和$ℒ1$损失进行了消融研究。它表明同步损失有助于同步，而其他损失则有助于表达保真度。

5结论

在本文中，我们提出了一种用于音频驱动的头部说话的有效情感适应范例，由两个阶段组成。首先，我们增强 3D 潜在表示并开发 Transformer 架构 A2ET，以实现与情绪无关的说话人生成。其次，我们通过深层情绪提示、EDN 和 EAM 引入可学习的情绪表达控制指导。借助这些适应模块，EAT 可以快速将预训练的头部特写模型转换为情感头部特写生成。实验表明，我们的 EAT 是第一个参数高效且有效的情感谈话者生成范例。

局限性和更广泛的影响。 1）情感训练数据的缺点，例如背景和头部姿势的多样性，会影响我们的 EAT 的泛化性。 2）我们的方法为更广泛的头部特写应用铺平了道路，包括零样本或一次性情感头部特写生成。

致谢。该工作得到国家重点研发计划（2022YFB3303300）和中央高校基本科研业务费专项资金（2022YFB3303300）的支持。 226-2023-00048）。

参考

[1]Dario Amodei, Sundaram Ananthanarayanan, Rishita Anubhai, Jingliang Bai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, Qiang Cheng, Guoliang Chen, et al.Deep speech 2: End-to-end speech recognition in english and mandarin.In International conference on machine learning, pages 173–182. PMLR, 2016.
[2]Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, and Cordelia Schmid.Vivit: A video vision transformer.In ICCV, pages 6836–6846, 2021.
[3]Lisa Feldman Barrett, Ralph Adolphs, Stacy Marsella, Aleix M Martinez, and Seth D Pollak.Emotional expressions reconsidered: Challenges to inferring emotion from human facial movements.Psychological science in the public interest, 20(1):1–68, 2019.
[4]Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan.Iemocap: Interactive emotional dyadic motion capture database.Language resources and evaluation, 42:335–359, 2008.
[5]Han Cai, Chuang Gan, Ligeng Zhu, and Song Han.Tinytl: Reduce memory, not parameters for efficient on-device learning.Advances in Neural Information Processing Systems, 33:11285–11297, 2020.
[6]Houwei Cao, David G Cooper, Michael K Keutmann, Ruben C Gur, Ani Nenkova, and Ragini Verma.Crema-d: Crowd-sourced emotional multimodal actors dataset.IEEE transactions on affective computing, 5(4):377–390, 2014.
[7]Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu.Hierarchical cross-modal talking face generation with dynamic pixel-wise loss.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7832–7841, 2019.
[8]Yangming Cheng, Liulei Li, Yuanyou Xu, Xiaodi Li, Zongxin Yang, Wenguan Wang, and Yi Yang.Segment and track anything.arXiv preprint arXiv:2305.06558, 2023.
[9]Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha.Stargan v2: Diverse image synthesis for multiple domains.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8188–8197, 2020.
[10]Joon Son Chung, Amir Jamaludin, and Andrew Zisserman.You said that?BMVC, 2017.
[11]Joon Son Chung, Arsha Nagrani, and Andrew Zisserman.VoxCeleb2: Deep Speaker Recognition.In Interspeech 2018, pages 1086–1090. ISCA, Sept. 2018.
[12]Joon Son Chung and Andrew Zisserman.Lip reading in the wild.In Asian conference on computer vision, pages 87–103. Springer, 2016.
[13]Joon Son Chung and Andrew Zisserman.Out of time: automated lip sync in the wild.In Asian conference on computer vision, pages 251–263. Springer, 2016.
[14]Davide Cozzolino, Andreas Rossler, Justus Thies, Matthias Nießner, and Luisa Verdoliva.Id-reveal: Identity-aware deepfake video detection.In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 15108–15117, 2021.
[15]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.Bert: Pre-training of deep bidirectional transformers for language understanding.In NAACL, pages 4171––4186, 2019.
[16]Michail Christos Doukas, Evangelos Ververas, Viktoriia Sharmanska, and Stefanos Zafeiriou.Free-headgan: Neural talking head synthesis with explicit gaze control.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
[17]Yu Du, Fangyun Wei, Zihe Zhang, Miaojing Shi, Yue Gao, and Guoqi Li.Learning to prompt for open-vocabulary object detection with vision-language model.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14084–14093, 2022.
[18]Paul Ekman and Wallace V Friesen.Facial action coding system.Environmental Psychology & Nonverbal Behavior, 1978.
[19]Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, and Christoph Feichtenhofer.Multiscale vision transformers.In ICCV, pages 6824–6835, 2021.
[20]Yudong Guo, Keyu Chen, Sen Liang, Yong-Jin Liu, Hujun Bao, and Juyong Zhang.Ad-nerf: Audio driven neural radiance fields for talking head synthesis.In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5784–5794, 2021.
[21]Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter.Gans trained by a two time-scale update rule converge to a local nash equilibrium.Advances in neural information processing systems, 30, 2017.
[22]Xinya Ji, Hang Zhou, Kaisiyuan Wang, Qia

[论文翻译]音频驱动头部说话合成的高效情感适应

原文地址：https://arxiv.org/abs/2309.04946

代码地址：https://github.com/yuangan/EAT_code.git

摘要

1简介

2相关工作

3方法

3.1与情绪无关的预训练

3.1.1增强的潜在表示。

3.1.2音频到表达式转换器。

3.2高效的情绪适应

3.3培训目标

4实验

4.1实验设置

4.2说话的一代

4.3用户研究

4.4调优效率

4.5零次表达式编辑

4.6消融研究

5结论

参考