音频 - 标签内容 | AI千集 — AI角色定制平台

[博客翻译]模拟YM2612：第1部分-接口

模拟YM2612芯片：第一部分 - 接口这是关于模拟世嘉Genesis主声音芯片——雅马哈YM2612 FM合成芯片（也称为OPN2）系列文章的第一篇。迄今为止，YM2612是我工作中遇到的最难模拟的声音芯片。它的概念并不特别复杂，但在具体工作原理上有大量细节和特殊之处，许多细节必须准确模拟才能让游戏音频听起来正确。由于所有的调制和反馈，调试错误也非常困难，例如，包络模拟中的一个小错误可能导致某些乐器听起来完全不对。这些文章不会描述如何实现一个周期精确的YM2612模拟器（我的模拟器也不是），但我会尽力...

由 openoker发布于 2025-03-29 22:23:00 模拟芯片音频合成接口审核中阅读次数 0
[论文翻译]AniPortrait：音频驱动的真实肖像动画合成

在这项研究中，我们提出了 AniPortrait，这是一种新颖的框架，用于生成由音频和参考肖像图像驱动的高质量动画。我们的方法分为两个阶段。最初，我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中 ...

由 openoker发布于 2024-05-20 19:44:20 音频数字人阅读次数 1667
[博客翻译]Radient：数据转向器，让多种类型的数据融入相似搜索

Radient是一个轻量级且开发者友好的库，它能将各种数据类型（不只是文本）转换为向量，便于进行相似性搜索。在利用RAG（Retrieval-Augmented Generation）技术的应用中，向量数据库常被用来检索与查询相关的内容。随着大模态模型（如Reka和Fuyu）的发展以及推荐和语义搜索等传统任务的兴起，向量的应用范围正在扩大，不再局限于文本领域。

由 openoker发布于 2024-05-10 18:11:42 音频文本向量阅读次数 1646

[博客翻译]模拟YM2612：第1部分-接口

[论文翻译]AniPortrait：音频驱动的真实肖像动画合成

[博客翻译]Radient：数据转向器，让多种类型的数据融入相似搜索