• [论文翻译]AudioCLIP: 将CLIP扩展到图像、文本和音频领域⋆

    过去,快速发展的声音分类领域极大地受益于其他领域方法的应用。如今,我们观察到将特定领域任务与方法相融合的趋势,这为学界提供了新的杰出模型。本文提出了一种CLIP模型的扩展版本,使其能够同时处理文本、图像和音频。我们提出的模型通过AudioSet数据集将ESResNeXt音频模型整合到CLIP框架中。这种组合使模型能够执行双模态和单模态分类及查询,同时保持CLIP以零样本推理方式泛化至未见数据集的能力。AudioCLIP在环境声音分类(ESC)任务中取得了新的最先进成果,在UrbanSound8K数据集上达到90.07%的准确率,在ESC-50数据集上达到97.15%的准确率,超越了其他方法。此外,它还在相同数据集的零样本ESC任务中设立了新基准(分别为68.78%和69.40%)。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理