ASR模型 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]AUTO-AVSR: 基于自动标注的视听语音识别

视听语音识别因其对声学噪声的鲁棒性而备受关注。近期，自动、视觉及视听语音识别（分别为ASR、VSR和AV-ASR）性能显著提升，主要得益于更大模型和训练集的使用。然而，数据集的精确标注耗时且昂贵。因此，本研究探索利用未标注数据集的自动生成转录来扩充训练集规模。我们采用公开可用的预训练ASR模型（如AVSpeech和VoxCeleb2）进行自动转录，随后在由LRS2、LRS3数据集及新增自动转录数据构成的增强训练集上训练ASR、VSR和AV-ASR模型。实验表明，尽管使用含噪声的转录文本，扩大训练集规模（当前学界趋势）仍能降低词错误率(WER)。

由 shadow发布于 2025-05-23 16:53:42 私有大模型大模型ASR模型阅读次数 1373