# 低资源引导的可控潜在音频扩散 ## 摘要 音频生成是许多创意应用中的关键。.
生成式音频需要细粒度的可控输出,但大多数现有方法要么需要在特定控制上重新训练模型,要么需要推理时控制(例如引导),这些也可能在计算上很耗时。通过研究现有引导型控制方法的瓶颈,特别是其由于解码器反向传播导致的每步高成本,我们通过选择性TFG和潜在控制头(LatCHs)引入了一种引导型方法,该方法能够以低计算开销控制潜在音频扩散模型。LatCHs直接在潜在空间中操作,避免了昂贵的解码器步骤,并且需要最少的训练资源(700万参数,约4小时的训练)。使用Stable Audio Open进行的实验展示了对强度、音高和节拍(以及这些的组合)的有效控制,同时保持了生成质量。我们的方法在保持精度和音频保真度的同时,相比标准端到端引导具有远低得多的计算成本。演示示例可在
赞
评论
请
登录后发表观点
