最近关于人体动画的研究通常涉及音频、姿势或运动图谱条件,从而实现逼真的动画质量。 然而,这些方法往往面临实际挑战,例如额外的控制条件、繁琐的条件注入模块或头部区域驱动限制。 因此,我们想知道在简化不必要的条件的同时,是否可以实现令人惊艳的半身体人体动画。 为此,我们提出了一种半身体人体动画方法,名为 EchoMimicV2,该方法利用新颖的音频-姿势动态协调策略,包括姿势采样和音频扩散,以增强半身体细节、面部和姿态表达力,同时减少条件冗余。 为了弥补半身体数据稀缺的问题,我们利用头部局部注意力将头部照片数据无缝地融入我们的训练框架,这在推理过程中可以省略,为动画提供了一种免费的“午餐”。 此外,我们设计了特定阶段的去噪损失,分别指导动画在特定阶段的动作、细节和低级质量。 此外,我们还提出了一个新的基准来评估半身体人体动画的有效性。 广泛的实验和分析表明,EchoMimicV2 在定量和定性评估方面都超过了现有方法。