[论文翻译]Separate and Reconstruct: 语音分离的非对称编码器-解码器结构
在语音分离领域,时域方法已成功利用可学习编码器的潜在序列特征替代了时频域方法。传统上,特征分离是在网络最终阶段进行的。我们提出了一种更直观的策略:通过将特征序列扩展为说话者数量作为额外维度,实现更早的特征分离。为此,我们采用非对称策略——将编码器和解码器划分以执行不同的分离任务处理。编码器负责分析特征,其输出会按待分离说话者数量进行分割。随后,权重共享的解码器会重建分离后的序列,同时执行跨说话者处理。该解码器中的权重共享网络不依赖说话者信息,而是直接通过分离目标学习区分特征。此外,传统方法为提升性能会延长序列长度,这促使双路径模型通过分块处理超长序列。针对此问题,我们引入全局和局部Transformer模块,无需分块和双路径处理即可直接高效处理长序列。实验结果表明:这种非对称结构具有有效性,且所提出的全局与局部Transformer组合足以替代双路径结构中块间/块内处理的作用。最终,结合这两项技术的模型以更少计算量在多个基准数据集上实现了最先进性能。