数据集训练 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]FunASR: 端到端语音识别基础工具包

本文介绍FunASR1，一个旨在弥合学术研究与工业应用差距的开源语音识别工具包。FunASR提供基于大规模工业语料库训练的模型及其应用部署能力。该工具包的核心模型Paraformer是一种非自回归端到端语音识别模型，其训练数据为包含6万小时语音的手工标注中文语音识别数据集。为提升Paraformer性能，我们在标准Paraformer主干网络中增加了时间戳预测和热词定制功能。此外，为简化模型部署，我们开源了基于前馈序列记忆网络(FSMN-VAD)的语音活动检测模型，以及基于可控时延Transformer(CT-Transformer)的文本后处理标点模型，二者均基于工业语料库训练。这些功能模块为构建高精度长语音识别服务提供了坚实基础。与基于公开数据集训练的其他模型相比，Paraformer展现出更优性能。

由 shadow发布于 2025-06-11 20:34:42 数据集训练数据集大模型阅读次数 1405