[论文翻译]声音描述:探索提示模板与类别描述以增强零样本音频分类
通过对比学习训练的音频-文本模型提供了一种实用方法,可通过自然语言提示(如"这是...的声音"后接类别名称)进行音频分类。本研究探索了零样本音频分类的替代提示模板,证明了存在更高性能的选项。首先,我们发现提示格式显著影响性能,仅使用正确格式化的类别标签提示模型,其表现即可与优化提示模板甚至提示集成相媲美。此外,我们研究了通过音频中心描述补充类别标签的方法。通过利用大语言模型,我们生成优先考虑声音事件声学特征的文本描述,无需大量提示工程即可消除类别歧义。实验表明,在主流环境声音数据集中,使用类别描述提示的方法实现了零样本音频分类的最先进结果。值得注意的是,该方法无需额外训练,且完全保持零样本特性。