[论文翻译]AudioCLIP: 将CLIP扩展到图像、文本和音频领域⋆

过去，快速发展的声音分类领域极大地受益于其他领域方法的应用。如今，我们观察到将特定领域任务与方法相融合的趋势，这为学界提供了新的杰出模型。本文提出了一种CLIP模型的扩展版本，使其能够同时处理文本、图像和音频。我们提出的模型通过AudioSet数据集将ESResNeXt音频模型整合到CLIP框架中。这种组合使模型能够执行双模态和单模态分类及查询，同时保持CLIP以零样本推理方式泛化至未见数据集的能力。AudioCLIP在环境声音分类(ESC)任务中取得了新的最先进成果，在UrbanSound8K数据集上达到90.07%的准确率，在ESC-50数据集上达到97.15%的准确率，超越了其他方法。此外，它还在相同数据集的零样本ESC任务中设立了新基准(分别为68.78%和69.40%)。