[论文翻译]IndexTTS: 一款工业级可控且高效的零样本文本转语音系统
在此,我们介绍基于XTTS和Tortoise模型的IndexTTS系统,并融入了一些创新改进。具体而言,在中文应用场景中,我们采用了字符与拼音相结合的混合建模策略,从而实现对多音字及长尾字符发音的精确控制。此外,针对声学语音Token的码本利用,我们对向量量化(VQ)与有限标量量化(FSQ)进行了对比分析。为了进一步提升语音克隆的效果与稳定性,我们引入了基于Conformer的语音条件编码器,并将语音解码器替换为BigVGAN2。