语音库 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]GigaSpeech: 一个持续演进、多领域的语音识别(ASR)语料库，包含10,000小时转写音频

本文介绍了GigaSpeech，这是一个持续演进的、多领域英语语音识别语料库，包含10,000小时适合监督训练的高质量标注音频，以及总计40,000小时适合半监督和无监督训练的音频。我们首先从有声书、播客和YouTube收集了约40,000小时的转录音频，涵盖朗读和即兴发言两种说话风格，以及艺术、科学、体育等多种主题。我们提出了一种新的强制对齐和分段流程，用于创建适合语音识别训练的句子片段，并过滤掉转录质量较低的片段。在系统训练方面，GigaSpeech提供五种不同规模的子集：10小时、250小时、1000小时、2500小时和10000小时。

由 shadow发布于 2025-06-06 15:10:50 大模型语音库语料库阅读次数 1263