• [论文翻译]在上下文端到端自动语音识别中使用外部非策略语音到文本映射

    尽管自动语音识别(ASR)模型的泛化性能有所提升,但为下游任务定制ASR模型仍具挑战性,主要归因于数据可用性降低(需增加数据收集)和数据分布快速变化(需更频繁的模型微调)。本研究探索了利用外部知识的潜力,特别是通过文本转语音(TTS)方法生成的离线策略键值存储,以实现对新数据分布的灵活训练后适配。我们的方法采用从TTS获取的音频嵌入和语义文本嵌入,通过基于近似k最近邻(KNN)的注意力融合步骤来偏置ASR模型。在LibriSpeech和内部语音助手/搜索数据集上的实验表明,相比微调基线,该方法可减少高达1K GPU小时的领域适配时间,同时实现最高3%的词错误率(WER)提升,这为在具有挑战性的零样本和少样本场景中适配生产级ASR系统提供了可行方案。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理