[论文翻译]用于连续手语识别的SLOWFAST网络

本工作的目标是为连续手语识别(CSLR)有效提取空间和动态特征。为此，我们采用双路径SlowFast网络，每条路径以不同时间分辨率运行，分别捕捉空间(手形、面部表情)和动态(运动)信息。此外，我们针对CSLR特性精心设计了两种特征融合方法：(1) 双向特征融合(BFF)，促进动态语义向空间语义的转换，反之亦然；(2) 路径特征增强(PFE)，通过辅助子网络丰富动态和空间表征，同时避免增加额外推理时间。最终，我们的模型并行强化了空间与动态表征。实验表明，该框架在PHOENIX14、PHOENIX14-T和CSL-Daily等主流CSLR数据集上超越了当前最优性能。