• [论文翻译]Separate and Reconstruct: 语音分离的非对称编码器-解码器结构

    在语音分离领域,时域方法已成功利用可学习编码器的潜在序列特征替代了时频域方法。传统上,特征分离是在网络最终阶段进行的。我们提出了一种更直观的策略:通过将特征序列扩展为说话者数量作为额外维度,实现更早的特征分离。为此,我们采用非对称策略——将编码器和解码器划分以执行不同的分离任务处理。编码器负责分析特征,其输出会按待分离说话者数量进行分割。随后,权重共享的解码器会重建分离后的序列,同时执行跨说话者处理。该解码器中的权重共享网络不依赖说话者信息,而是直接通过分离目标学习区分特征。此外,传统方法为提升性能会延长序列长度,这促使双路径模型通过分块处理超长序列。针对此问题,我们引入全局和局部Transformer模块,无需分块和双路径处理即可直接高效处理长序列。实验结果表明:这种非对称结构具有有效性,且所提出的全局与局部Transformer组合足以替代双路径结构中块间/块内处理的作用。最终,结合这两项技术的模型以更少计算量在多个基准数据集上实现了最先进性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理