[论文翻译]AniPortrait:音频驱动的真实肖像动画合成 在这项研究中,我们提出了 AniPortrait,这是一种新颖的框架,用于生成由音频和参考肖像图像驱动的高质量动画。我们的方法分为两个阶段。最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中 ... 由 openoker发布于 2024-05-20 19:44:20 音频数字人 阅读次数 366
[博客翻译]Radient:数据转向器,让多种类型的数据融入相似搜索 Radient是一个轻量级且开发者友好的库,它能将各种数据类型(不只是文本)转换为向量,便于进行相似性搜索。在利用RAG(Retrieval-Augmented Generation)技术的应用中,向量数据库常被用来检索与查询相关的内容。随着大模态模型(如Reka和Fuyu)的发展以及推荐和语义搜索等传统任务的兴起,向量的应用范围正在扩大,不再局限于文本领域。 由 openoker发布于 2024-05-10 18:11:42 音频文本向量 阅读次数 463