• [论文翻译]FunASR: 端到端语音识别基础工具包

    本文介绍FunASR1,一个旨在弥合学术研究与工业应用差距的开源语音识别工具包。FunASR提供基于大规模工业语料库训练的模型及其应用部署能力。该工具包的核心模型Paraformer是一种非自回归端到端语音识别模型,其训练数据为包含6万小时语音的手工标注中文语音识别数据集。为提升Paraformer性能,我们在标准Paraformer主干网络中增加了时间戳预测和热词定制功能。此外,为简化模型部署,我们开源了基于前馈序列记忆网络(FSMN-VAD)的语音活动检测模型,以及基于可控时延Transformer(CT-Transformer)的文本后处理标点模型,二者均基于工业语料库训练。这些功能模块为构建高精度长语音识别服务提供了坚实基础。与基于公开数据集训练的其他模型相比,Paraformer展现出更优性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一款聚焦健康管理的智能平台
在这里您可以获得本平台自训练的
健康管理大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能健康快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众健康的桥梁
让科学健康管理融入日常
登陆小程序
AI数字人随身守护
健康管理更高效
生活品质悄然升级

千集助理