[论文翻译]在上下文端到端自动语音识别中使用外部非策略语音到文本映射

尽管自动语音识别(ASR)模型的泛化性能有所提升，但为下游任务定制ASR模型仍具挑战性，主要归因于数据可用性降低(需增加数据收集)和数据分布快速变化(需更频繁的模型微调)。本研究探索了利用外部知识的潜力，特别是通过文本转语音(TTS)方法生成的离线策略键值存储，以实现对新数据分布的灵活训练后适配。我们的方法采用从TTS获取的音频嵌入和语义文本嵌入，通过基于近似k最近邻(KNN)的注意力融合步骤来偏置ASR模型。在LibriSpeech和内部语音助手/搜索数据集上的实验表明，相比微调基线，该方法可减少高达1K GPU小时的领域适配时间，同时实现最高3%的词错误率(WER)提升，这为在具有挑战性的零样本和少样本场景中适配生产级ASR系统提供了可行方案。