软动态时间规整技术 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]端到端对抗性文本到语音

现代文本转语音合成流程通常包含多个独立设计或训练的处理阶段。本研究致力于实现从规范化文本或音素端到端学习语音合成的挑战性任务，构建可直接处理字符或音素输入序列并输出原始语音音频的模型。我们提出的生成器采用前馈结构，基于token长度预测的可微分对齐方案，在训练和推理阶段均保持高效。通过结合对抗性反馈与预测损失（约束生成音频在总时长和梅尔频谱图方面与真实音频大致匹配），该模型能学习生成高保真音频。为捕捉生成音频的时间变化特性，我们在基于频谱图的预测损失中采用软动态时间规整技术。最终模型在5分量表上获得超过4分的平均意见得分，其性能可与依赖多阶段训练和额外监督的先进模型相媲美[20]。

由卡汁发布于 2025-04-13 19:06:17 端到端学习语音合成软动态时间规整技术阅读次数 990