AVSR 模型 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]Whisper-Flamingo：将视觉特征融入Whisper以实现视听语音识别与翻译

视听语音识别 (AVSR) 利用唇部视频提升噪声环境下的识别性能。由于视频数据比音频更难获取，AVSR 模型的视频训练数据通常仅限于数千小时。相比之下，Whisper 等语音模型使用数十万小时数据进行训练，因此能学习到更优质的语音到文本解码器。这种巨大的训练数据差异促使我们改造 Whisper 以处理视频输入。受 Flamingo 向语言模型注入视觉特征的启发，我们提出 Whisper-Flamingo，通过门控交叉注意力将视觉特征整合到 Whisper 语音识别与翻译模型中。

由 shadow发布于 2025-05-24 10:52:51 大规模训练数据训练数据AVSR 模型阅读次数 1225