[论文翻译]高效序列转导:联合预测Token与持续时间
本文介绍了一种用于序列到序列任务的新型Token-and-Duration Transducer (TDT)架构。TDT通过联合预测token及其持续时间(即所生成token覆盖的输入帧数),扩展了传统RNN-Transducer架构。这是通过使用具有两个输出的联合网络实现的,这两个输出独立归一化以生成token和持续时间的分布。在推理过程中,TDT模型可以根据预测的持续时间输出跳过输入帧,这使其比传统逐帧处理编码器输出的Transducer快得多。在不同序列转导任务中,TDT模型不仅精度更高,而且推理速度显著快于传统Transducer。