[论文翻译]基于Conformer的连续语音分离
连续语音分离技术最近被提出用于处理自然对话中的重叠语音。虽然该技术已被证明能显著提升多通道对话转录的语音识别性能,但其在单通道录音场景中的有效性仍有待验证。本文研究了采用Conformer架构替代循环神经网络作为分离模型的方案。Conformer能使分离模型高效捕获局部与全局上下文信息,这对语音分离至关重要。基于LibriCSS数据集的实验结果表明,Conformer分离模型在单通道和多通道设置下均达到了当前最优水平。针对真实会议录音的测试结果也显示,该模型在词错误率(WER)和说话人归属词错误率(SA-WER)上均取得显著提升。