• [论文翻译]GigaSpeech: 一个持续演进、多领域的语音识别(ASR)语料库,包含10,000小时转写音频

    本文介绍了GigaSpeech,这是一个持续演进的、多领域英语语音识别语料库,包含10,000小时适合监督训练的高质量标注音频,以及总计40,000小时适合半监督和无监督训练的音频。我们首先从有声书、播客和YouTube收集了约40,000小时的转录音频,涵盖朗读和即兴发言两种说话风格,以及艺术、科学、体育等多种主题。我们提出了一种新的强制对齐和分段流程,用于创建适合语音识别训练的句子片段,并过滤掉转录质量较低的片段。在系统训练方面,GigaSpeech提供五种不同规模的子集:10小时、250小时、1000小时、2500小时和10000小时。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是AI智能体平台
在这里您可以获得本平台自训练的
AI智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众知识的桥梁
让科学生活融入日常
登陆小程序
AI数字人随身守护
智慧管理更高效
生活品质悄然升级

千集助理