连续语音分离技术最近被提出用于处理自然对话中的重叠语音。虽然该技术已被证明能显著提升多通道对话转录的语音识别性能，但其在单通道录音场景中的有效性仍有待验证。本文研究了采用Conformer架构替代循环神经网络作为分离模型的方案。Conformer能使分离模型高效捕获局部与全局上下文信息，这对语音分离至关重要。基于LibriCSS数据集的实验结果表明，Conformer分离模型在单通道和多通道设置下均达到了当前最优水平。针对真实会议录音的测试结果也显示，该模型在词错误率(WER)和说话人归属词错误率(SA-WER)上均取得显著提升。

[论文翻译]在上下文端到端自动语音识别中使用外部非策略语音到文本映射

尽管自动语音识别(ASR)模型的泛化性能有所提升，但为下游任务定制ASR模型仍具挑战性，主要归因于数据可用性降低(需增加数据收集)和数据分布快速变化(需更频繁的模型微调)。本研究探索了利用外部知识的潜力，特别是通过文本转语音(TTS)方法生成的离线策略键值存储，以实现对新数据分布的灵活训练后适配。我们的方法采用从TTS获取的音频嵌入和语义文本嵌入，通过基于近似k最近邻(KNN)的注意力融合步骤来偏置ASR模型。在LibriSpeech和内部语音助手/搜索数据集上的实验表明，相比微调基线，该方法可减少高达1K GPU小时的领域适配时间，同时实现最高3%的词错误率(WER)提升，这为在具有挑战性的零样本和少样本场景中适配生产级ASR系统提供了可行方案。

由 147****6943发布于 2025-04-16 17:19:12 自动语音识别注意力融合下游任务阅读次数 561

[论文翻译]基于Conformer的连续语音分离

[论文翻译]在上下文端到端自动语音识别中使用外部非策略语音到文本映射