# 低资源引导的可控潜在音频扩散 ## 摘要音频生成是许多创意应用中的关键。.

生成式音频需要细粒度的可控输出，但大多数现有方法要么需要在特定控制上重新训练模型，要么需要推理时控制（例如引导）,这些也可能在计算上很耗时。通过研究现有引导型控制方法的瓶颈，特别是其由于解码器反向传播导致的每步高成本，我们通过选择性TFG和潜在控制头（LatCHs）引入了一种引导型方法，该方法能够以低计算开销控制潜在音频扩散模型。LatCHs直接在潜在空间中操作，避免了昂贵的解码器步骤，并且需要最少的训练资源（700万参数，约4小时的训练）。使用Stable Audio Open进行的实验展示了对强度、音高和节拍（以及这些的组合）的有效控制，同时保持了生成质量。我们的方法在保持精度和音频保真度的同时，相比标准端到端引导具有远低得多的计算成本。演示示例可在