FlowEdit:Flow-Matching TTS中终身发音适应的联想记忆
Flow-matching TTS系统实现了优异的零样本质量,但部署后保持静态:除非重新训练,词汇外专有名词的发音错误将持续存在。我们引入FlowEdit,一种面向冻结Flow-matching TTS的终身适应框架,将发音纠正作为潜在条件编辑而非权重更新进行学习。提供纠正反馈时,FlowEdit优化文本嵌入空间中的token级扰动,随后将纠正存储于作为内容可寻址情景记忆的Modern Hopfield Network。推理时,通过带有相似性门控的软注意力检索纠正,以实现模糊形态匹配。在我们整理的跨18个语系312个多语言专有名词的基准上,相较于零样本基线,FlowEdit将目标词音素错误率降低了92.7%,同时保持同等的一般语音质量。单块GPU上完成纠正约耗时15秒。
赞
评论
请
登录后发表观点
