# 低资源引导的可控潜在音频扩散 ## 摘要 音频生成是许多创意应用中的关键。.

生成式音频需要细粒度的可控输出,但大多数现有方法要么需要在特定控制上重新训练模型,要么需要推理时控制(例如引导),这些也可能在计算上很耗时。通过研究现有引导型控制方法的瓶颈,特别是其由于解码器反向传播导致的每步高成本,我们通过选择性TFG和潜在控制头(LatCHs)引入了一种引导型方法,该方法能够以低计算开销控制潜在音频扩散模型。LatCHs直接在潜在空间中操作,避免了昂贵的解码器步骤,并且需要最少的训练资源(700万参数,约4小时的训练)。使用Stable Audio Open进行的实验展示了对强度、音高和节拍(以及这些的组合)的有效控制,同时保持了生成质量。我们的方法在保持精度和音频保真度的同时,相比标准端到端引导具有远低得多的计算成本。演示示例可在
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行