• [论文翻译]端到端对抗性文本到语音

    现代文本转语音合成流程通常包含多个独立设计或训练的处理阶段。本研究致力于实现从规范化文本或音素端到端学习语音合成的挑战性任务,构建可直接处理字符或音素输入序列并输出原始语音音频的模型。我们提出的生成器采用前馈结构,基于token长度预测的可微分对齐方案,在训练和推理阶段均保持高效。通过结合对抗性反馈与预测损失(约束生成音频在总时长和梅尔频谱图方面与真实音频大致匹配),该模型能学习生成高保真音频。为捕捉生成音频的时间变化特性,我们在基于频谱图的预测损失中采用软动态时间规整技术。最终模型在5分量表上获得超过4分的平均意见得分,其性能可与依赖多阶段训练和额外监督的先进模型相媲美[20]。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理