• [论文翻译]AUTO-AVSR: 基于自动标注的视听语音识别

    视听语音识别因其对声学噪声的鲁棒性而备受关注。近期,自动、视觉及视听语音识别(分别为ASR、VSR和AV-ASR)性能显著提升,主要得益于更大模型和训练集的使用。然而,数据集的精确标注耗时且昂贵。因此,本研究探索利用未标注数据集的自动生成转录来扩充训练集规模。我们采用公开可用的预训练ASR模型(如AVSpeech和VoxCeleb2)进行自动转录,随后在由LRS2、LRS3数据集及新增自动转录数据构成的增强训练集上训练ASR、VSR和AV-ASR模型。实验表明,尽管使用含噪声的转录文本,扩大训练集规模(当前学界趋势)仍能降低词错误率(WER)。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理