• [论文翻译]Whisper-Flamingo:将视觉特征融入Whisper以实现视听语音识别与翻译

    视听语音识别 (AVSR) 利用唇部视频提升噪声环境下的识别性能。由于视频数据比音频更难获取,AVSR 模型的视频训练数据通常仅限于数千小时。相比之下,Whisper 等语音模型使用数十万小时数据进行训练,因此能学习到更优质的语音到文本解码器。这种巨大的训练数据差异促使我们改造 Whisper 以处理视频输入。受 Flamingo 向语言模型注入视觉特征的启发,我们提出 Whisper-Flamingo,通过门控交叉注意力将视觉特征整合到 Whisper 语音识别与翻译模型中。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一款聚焦健康管理的智能平台
在这里您可以获得本平台自训练的
健康管理大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能健康快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众健康的桥梁
让科学健康管理融入日常
登陆小程序
AI数字人随身守护
健康管理更高效
生活品质悄然升级

千集助理