FlowEdit：Flow-Matching TTS中终身发音适应的联想记忆

Flow-matching TTS系统实现了优异的零样本质量，但部署后保持静态：除非重新训练，词汇外专有名词的发音错误将持续存在。我们引入FlowEdit，一种面向冻结Flow-matching TTS的终身适应框架，将发音纠正作为潜在条件编辑而非权重更新进行学习。提供纠正反馈时，FlowEdit优化文本嵌入空间中的token级扰动，随后将纠正存储于作为内容可寻址情景记忆的Modern Hopfield Network。推理时，通过带有相似性门控的软注意力检索纠正，以实现模糊形态匹配。在我们整理的跨18个语系312个多语言专有名词的基准上，相较于零样本基线，FlowEdit将目标词音素错误率降低了92.7%，同时保持同等的一般语音质量。单块GPU上完成纠正约耗时15秒。