[论文翻译]GigaSpeech: 一个持续演进、多领域的语音识别(ASR)语料库,包含10,000小时转写音频
本文介绍了GigaSpeech,这是一个持续演进的、多领域英语语音识别语料库,包含10,000小时适合监督训练的高质量标注音频,以及总计40,000小时适合半监督和无监督训练的音频。我们首先从有声书、播客和YouTube收集了约40,000小时的转录音频,涵盖朗读和即兴发言两种说话风格,以及艺术、科学、体育等多种主题。我们提出了一种新的强制对齐和分段流程,用于创建适合语音识别训练的句子片段,并过滤掉转录质量较低的片段。在系统训练方面,GigaSpeech提供五种不同规模的子集:10小时、250小时、1000小时、2500小时和10000小时。