• [论文翻译]IIANet: 一种用于视听语音分离的模态内与模态间注意力网络

    近期研究在视听语音分离的融合模块设计上取得了显著进展。然而,这些方法主要集中于听觉和视觉特征在单一时间尺度上的多模态融合,且未采用选择性注意力机制,这与大脑处理机制形成鲜明对比。为解决这一问题,我们提出了一种名为内外注意力网络 (Intra- and Inter-Attention Network, IIANet) 的新模型,该模型利用注意力机制实现高效的视听特征融合。IIANet包含两类注意力模块:内部注意力 (IntraA) 和交互注意力 (InterA) 模块,其中InterA模块分布在网络顶部、中部和底部。这些模块深度借鉴了人脑在不同时间尺度上选择性关注相关内容的机制,既能保持学习模态特异性特征的能力,又可从视听特征中提取不同语义信息。在三个标准视听分离基准数据集 (LRS2、LRS3和VoxCeleb2) 上的全面实验表明,IIANet在保持相当推理时间的同时,性能优于现有最优方法。特别地,快速版IIANet (IIANet-fast) 仅需CTCNet 7%的乘加运算量,在CPU上运行速度比CTCNet快40%,同时实现更优的分离质量,这充分展现了注意力机制在高效多模态融合中的巨大潜力。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理