数字人 - 标签内容 | AI千集 — AI角色定制平台

一张照片生成二次元分身，但这深圳团队做的也许是AI的发展方向

从Umaxing的角色IP系统出发，聊聊AI头像工具从功能竞争转向角色竞争的趋势。当别人还在比生成质量的时候，这个深圳小工作室给每个角色起了名字、赋予了性格，用表情包延伸角色生命力，走出了一条不一样的路。

由 icodebase发布于 2026-06-06 11:05:04 AI二次元数字人角色IP 阅读次数 232
[论文翻译]EchoMimicV2：迈向惊艳、简单的半身真人动画

最近关于人体动画的研究通常涉及音频、姿势或运动图谱条件，从而实现逼真的动画质量。然而，这些方法往往面临实际挑战，例如额外的控制条件、繁琐的条件注入模块或头部区域驱动限制。因此，我们想知道在简化不必要的条件的同时，是否可以实现令人惊艳的半身体人体动画。为此，我们提出了一种半身体人体动画方法，名为 EchoMimicV2，该方法利用新颖的音频-姿势动态协调策略，包括姿势采样和音频扩散，以增强半身体细节、面部和姿态表达力，同时减少条件冗余。为了弥补半身体数据稀缺的问题，我们利用头部局部注意力将头部照片数据无缝地融入我们的训练框架，这在推理过程中可以省略，为动画提供了一种免费的“午餐”。此外，我们设计了特定阶段的去噪损失，分别指导动画在特定阶段的动作、细节和低级质量。此外，我们还提出了一个新的基准来评估半身体人体动画的有效性。广泛的实验和分析表明，EchoMimicV2 在定量和定性评估方面都超过了现有方法。

由 openoker发布于 2024-11-27 11:41:16 数字人阅读次数 1882
[论文翻译]AniPortrait：音频驱动的真实肖像动画合成

在这项研究中，我们提出了 AniPortrait，这是一种新颖的框架，用于生成由音频和参考肖像图像驱动的高质量动画。我们的方法分为两个阶段。最初，我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中 ...

由 openoker发布于 2024-05-20 19:44:20 音频数字人阅读次数 1667
[论文翻译]音频驱动头部说话合成的高效情感适应

音频驱动的头部说话合成是虚拟人相关应用的热门研究课题。然而，现有方法的不灵活性和低效率，需要昂贵的端到端训练来将情感从指导视频转移到头部说话的预测，这是很大的限制。在这项工作中，我们提出了音频驱动的说话头的情感适应（EAT）方法，该方法通过参数有效的适应，以经济高效的方式将情感不可知的说话头模型转换为情感可控的模型 ...

由 openoker发布于 2024-05-20 19:08:48 说话人数字人阅读次数 1435
[论文翻译]Talking Head 单图像动画4：改进模型及其提炼

我们研究创建可以从动漫角色的单个图像实时控制的角色模型的问题。这个问题的解决方案将大大降低创建头像、电脑游戏和其他交互式应用程序的成本…

由 openoker发布于 2024-05-20 19:07:32 动漫角色数字人阅读次数 1545

一张照片生成二次元分身，但这深圳团队做的也许是AI的发展方向

[论文翻译]EchoMimicV2：迈向惊艳、简单的半身真人动画

[论文翻译]AniPortrait：音频驱动的真实肖像动画合成

[论文翻译]音频驱动头部说话合成的高效情感适应

[论文翻译]Talking Head 单图像动画4：改进模型及其提炼