[论文翻译]声音描述：探索提示模板与类别描述以增强零样本音频分类

通过对比学习训练的音频-文本模型提供了一种实用方法，可通过自然语言提示（如"这是...的声音"后接类别名称）进行音频分类。本研究探索了零样本音频分类的替代提示模板，证明了存在更高性能的选项。首先，我们发现提示格式显著影响性能，仅使用正确格式化的类别标签提示模型，其表现即可与优化提示模板甚至提示集成相媲美。此外，我们研究了通过音频中心描述补充类别标签的方法。通过利用大语言模型，我们生成优先考虑声音事件声学特征的文本描述，无需大量提示工程即可消除类别歧义。实验表明，在主流环境声音数据集中，使用类别描述提示的方法实现了零样本音频分类的最先进结果。值得注意的是，该方法无需额外训练，且完全保持零样本特性。