[论文翻译]AniPortrait:音频驱动的真实肖像动画合成


原文地址:https://arxiv.org/pdf/2403.17694


摘要

在这项研究中,我们提出了 AniPortrait,这是一种新颖的框架,用于生成由音频和参考肖像图像驱动的高质量动画。 我们的方法分为两个阶段。 最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中。 随后,我们采用鲁棒的扩散模型,结合运动模块,将地标序列转换为逼真且时间一致的肖像动画。 实验结果证明了 AniPortrait 在面部自然度、姿势多样性和视觉质量方面的优越性,从而提供了增强的感知体验。 此外,我们的方法在灵活性和可控性方面表现出巨大的潜力,可以有效地应用于面部运动编辑或面部重演等领域。 我们在 https://github.com/scutzzj/AniPortrait https://github.com/Zejun-Yang/AniPortrait 发布代码和模型权重。

1简介

从音频和静态图像创建逼真且富有表现力的肖像动画具有广泛的应用,从虚拟现实和游戏到数字媒体。 然而,制作具有视觉吸引力并保持时间一致性的高质量动画提出了重大挑战。 这种复杂性源于需要嘴唇动作、面部表情和头部位置的复杂协调,以打造引人注目的视觉效果。

现有方法往往无法克服这一挑战,主要是因为它们依赖于有限容量的生成器来创建视觉内容,例如 GAN[3, 17]、NeRF[14, 13 ],或基于运动的解码器[16, 8]。 这些网络表现出有限的泛化能力,并且在生成高质量内容方面往往缺乏稳定性。 最近,扩散模型[2,5,9]的出现促进了高质量图像的生成。 一些研究在此基础上结合了时间模块,使扩散模型能够出色地创建引人注目的视频。

基于扩散模型的进步,我们引入了 AniPortrait,这是一个新颖的框架,旨在生成由音频和参考图像驱动的高质量动画肖像。 AniPortrait 分为两个不同的阶段。 在第一阶段,我们采用基于 Transformer 的模型从音频输入中提取一系列 3D 面部网格和头部姿势,随后将其投影为一系列 2D 面部标志。 除了与音频节奏同步的头部运动之外,该阶段还能够从音频中捕捉微妙的表情和嘴唇运动。 在后续阶段,我们利用鲁棒的扩散模型[9],与运动模块[4]集成,将面部标志序列转换为时间一致且逼真的序列动画肖像。 具体来说,我们利用 AnimateAnyone[6] 的网络架构,该架构利用强大的扩散模型 Stable Diffusion 1.5,根据身体运动序列和参考图像生成流畅且逼真的视频。 特别值得注意的是我们重新设计了该网络中的姿势引导器模块。 这种修改不仅保持了轻量化设计,而且在产生嘴唇运动时表现出更高的精度。

我们的实验结果表明,AniPortrait 在创建具有令人印象深刻的面部自然度、变化的姿势和出色的视觉质量的动画方面具有优越性。 通过使用 3D 面部表征作为中间特征,我们可以灵活地根据需要修改这些表征。 这种适应性极大地增强了我们的框架在面部运动编辑和面部重演等领域的适用性。

Refer to caption图 1:所提出方法的概述。 我们的框架分为两个阶段。 首先,我们从音频中提取 3D 面部网格和头部姿势,然后将这两个元素投影到 2D 关键点中。 在第二阶段,我们利用扩散模型将二维关键点转换为肖像视频。 这两个阶段在我们的框架内同时进行训练。

2方法

所提出的框架包括两个模块,即 Audio2Lmk 和 Lmk2Video。 前者旨在提取一系列地标,从音频输入中捕获复杂的面部表情和嘴唇动作。 后者利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量肖像视频。 我们在图 1 中概述了该框架,并在下面提供了更多详细信息。

2.1音频 2Lmk

让 𝒜1:𝑇=(𝐚1,…,𝐚𝑇) 表示语音片段序列,我们的目标是预测相应的 3D 面部网格序列 ℳ1:𝑇=(𝐦1,…,𝐦𝑇),其中每个 𝐦𝑡∈ℝ𝑁×3 和姿势序列 𝒫1:𝑇=(𝐩1,…,𝐩𝑇),每个 𝐩𝑡 是一个代表旋转和平移的 6 维向量。

我们使用预先训练的 wav2vec[1] 来提取音频特征。 该模型具有高度的通用性,能够准确地识别音频中的发音和语调,这在生成逼真的面部动画方面发挥着关键作用。 通过利用获得的鲁棒语音特征,我们可以有效地采用由两个 fc 层组成的简单架构将这些特征转换为 3D 面部网格。 我们观察到,这种简单的设计不仅保证了准确性,还提高了推理过程的效率。

在将音频转换为姿势的任务中,我们采用相同的 wav2vec 网络作为主干网络。 但是,我们不与音频到网格模块共享权重。 这是因为姿势与音频中存在的节奏和音调更密切相关,这与音频到网格任务相比是不同的重点。 为了考虑先前状态的影响,我们使用 Transformer[11] 解码器来解码姿势序列。 在此过程中,使用交叉注意机制将音频特征集成到解码器中。 对于上述两个模块,我们使用简单的 L1 损失来训练它们。

获得网格和姿势序列后,我们使用透视投影将它们转换为面部标志的 2D 序列。 这些地标随后被用作下一阶段的输入信号。

2.2Lmk2Video

给定一个参考肖像图像(表示为𝐼𝑟⁢𝑒⁢𝑓)和一系列表示为ℒ1:𝑇=(𝐥1,…,𝐥𝑇)的面部标志,其中每个𝐥𝑡∈ℝ𝑁×2,我们提出的 Lmk2Video 模块创建一个时间一致的肖像动画片。 该动画将运动与地标序列对齐,并保持与参考图像一致的外观。 我们将肖像动画表示为一系列肖像帧,表示为ℐ1:𝑇=(𝐈1,…,𝐈𝑇)。

Lmk2Video 网络结构的设计灵感来自于 AnimateAnyone。 我们利用 SD1.5 作为骨干,结合一个时间运动模块,可以有效地将多帧噪声输入转换为视频帧序列。 同时,采用镜像 SD1.5 结构的 ReferenceNet 从参考图像中提取外观信息并将其集成到主干中。 这种战略设计可确保面部 ID 在整个输出视频中保持一致。 与 AnimateAnyone 不同的是,我们增强了 PoseGuider 设计的复杂性。 原始版本仅包含几个卷积层,之后标志性特征与主干输入层的潜在特征合并。 我们发现这种基本设计无法捕捉嘴唇复杂的运动。 因此,我们采用 ControlNet 的[15]多尺度策略,将相应尺度的标志性特征合并到主干的不同块中。 尽管有这些增强,我们仍然成功地将参数数量保持在相对较低的水平。

我们还引入了一项额外的改进:将参考图像的地标作为额外的输入。 PoseGuider 的交叉注意力模块促进参考地标和每帧目标地标之间的交互。 这个过程为网络提供了额外的线索来理解面部标志和外观之间的相关性,从而帮助生成具有更精确运动的肖像动画。

3实验

3.1实现细节

在 Audio2Lmk 阶段,我们采用 wav2vec2.0 作为我们的骨干。 我们利用 MediaPipe[7] 提取 3D 网格和 6D 姿势进行注释。 Audio2Mesh 的训练数据来自我们的内部数据集,其中包含来自单个扬声器的近一个小时的高质量语音数据。 为了确保 MediaPipe 提取的 3D 网格的稳定性,我们指示演员在整个录制过程中保持稳定的头部位置,面向摄像机。 我们使用 HDTF[18] 训练 Audio2Pose。 所有训练操作均在单个 A100 上执行,使用学习率为 1e-5 的 Adam 优化器。

在 Lmk2Video 过程中,我们实现了两步训练方法。 在初始步骤中,我们专注于训练主干网、ReferenceNet 和 PoseGuider 的 2D 组件,而忽略了运动模块。 在接下来的步骤中,我们冻结所有其他组件并专注于运动模块的训练。 我们利用两个大规模、高质量的面部视频数据集 VFHQ[12] 和 CelebV-HQ[19] 来训练模型。 所有数据均通过 MediaPipe 进行处理,以提取 2D 面部标志。 为了增强网络对嘴唇运动的敏感度,我们在从 2D 地标渲染姿势图像时用不同的颜色区分上唇和下唇。 所有图像的尺寸均调整为 512x512 分辨率。 我们使用 4 个 A100 GPU 进行模型训练,每个步骤花费两天时间。 采用 AdamW 优化器,学习率为 1e-5。

3.2结果

如图2所示,我们的方法生成了一系列质量和真实度都令人惊叹的动画。 我们利用中间 3D 表示,可以对其进行编辑以操纵最终输出。 例如,我们可以从源中提取地标并更改其 ID,从而使我们能够创建面部重演效果。

Refer to caption图 2:我们方法的结果。

4结论和未来工作

这项研究提出了一个基于扩散模型的肖像动画框架。 通过简单地输入音频剪辑和参考图像,该框架就能够生成具有平滑嘴唇运动和自然头部运动特征的肖像视频。 利用扩散模型强大的泛化能力,该框架创建的动画显示出令人印象深刻的逼真图像质量和令人信服的逼真运动。 然而,这种方法需要使用中间 3D 表示,并且获得大规模、高质量 3D 数据的成本相当高。 因此,生成的人像视频中的面部表情和头部姿势都无法逃脱恐怖谷效应。 未来,我们计划效仿 EMO[10]的方法,直接从音频预测人像视频,以达到更令人惊叹的生成结果。

参考

  • [1]Baevski, A., Zhou, Y., Mohamed, A., Auli, M.: wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in neural information processing systems 33, 12449–12460 (2020)
  • [2]Dhariwal, P., Nichol, A.: Diffusion models beat gans on image synthesis. Advances in neural information processing systems 34, 8780–8794 (2021)
  • [3]Guan, J., Zhang, Z., Zhou, H., Hu, T., Wang, K., He, D., Feng, H., Liu, J., Ding, E., Liu, Z., et al.: Stylesync: High-fidelity generalized and personalized lip sync in style-based generator. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 1505–1515 (2023)
  • [4]Guo, Y., Yang, C., Rao, A., Wang, Y., Qiao, Y., Lin, D., Dai, B.: Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725 (2023)
  • [5]Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. Advances in neural information processing systems 33, 6840–6851 (2020)
  • [6]Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L.: Animate anyone: Consistent and controllable image-to-video synthesis for character animation. arXiv preprint arXiv:2311.17117 (2023)
  • [7]Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M., Zhang, F., Chang, C.L., Yong, M.G., Lee, J., et al.: Mediapipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172 (2019)
  • [8]Ma, Y., Zhang, S., Wang, J., Wang, X., Zhang, Y., Deng, Z.: Dreamtalk: When expressive talking head generation meets diffusion probabilistic models. arXiv preprint arXiv:2312.09767 (2023)
  • [9]Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 10684–10695 (2022)
  • [10]Tian, L., Wang, Q., Zhang, B., Bo, L.: Emo: Emote portrait alive-generating expressive portrait videos with audio2video diffusion model under weak conditions. arXiv preprint arXiv:2402.17485 (2024)
  • [11]Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., Polosukhin, I.: Attention is all you need. Advances in neural information processing systems 30 (2017)
  • [12]Xie, L., Wang, X., Zhang, H., Dong, C., Shan, Y.: Vfhq: A high-quality dataset and benchmark for video face super-resolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 657–666 (2022)
  • [13]Ye, Z., He, J., Jiang, Z., Huang, R., Huang, J., Liu, J., Ren, Y., Yin, X., Ma, Z., Zhao, Z.: Geneface++: Generalized and stable real-time audio-driven 3d talking face generation. arXiv preprint arXiv:2305.00787 (2023)
  • [14]Ye, Z., Jiang, Z., Ren, Y., Liu, J., He, J., Zhao, Z.: Geneface: Generalized and high-fidelity audio-driven 3d talking face synthesis. arXiv preprint arXiv:2301.13430 (2023)
  • [15]Zhang, L., Rao, A., Agrawala, M.: Adding conditional control to text-to-image diffusion models. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 3836–3847 (2023)
  • [16]Zhang, W., Cun, X., Wang, X., Zhang, Y., Shen, X., Guo, Y., Shan, Y., Wang, F.: Sadtalker: Learning realistic 3d motion coefficients for stylized audio-driven single image talking face animation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 8652–8661 (2023)
  • [17]Zhang, Z., Hu, Z., Deng, W., Fan, C., Lv, T., Ding, Y.: Dinet: Deformation inpainting network for realistic face visually dubbing on high resolution video. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 37, pp. 3543–3551 (2023)
  • [18]Zhang, Z., Li, L., Ding, Y., Fan, C.: Flow-guided one-shot talking face generation with a high-resolution audio-visual dataset. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 3661–3670 (2021)
  • [19]Zhu, H., Wu, W., Zhu, W., Jiang, L., Tang, S., Zhang, L., Liu, Z., Loy, C.C.: Celebv-hq: A large-scale video facial attributes dataset. In: European conference on computer vision. pp. 650–667. Springer (2022)