[论文翻译]ResiDual: 具有双重残差连接的Transformer
Transformer网络因其最先进的性能已成为许多任务的首选架构。然而,关于如何最佳实现Transformer中残差连接(这对有效训练至关重要)的方式仍存在争议。目前广泛使用的两种变体是后层归一化(Post-LN)和前层归一化(Pre-LN)Transformer,它们分别将层归一化应用于每个残差块的输出之后或输入之前。尽管这两种变体各有优势,但也存在严重缺陷:Post-LN会导致梯度消失问题,阻碍深层Transformer的训练;而Pre-LN则会导致表征坍缩问题,限制模型容量。本文提出ResiDual——一种采用前-后层归一化(PPLN)的新型Transformer架构,它融合了Post-LN和Pre-LN的连接方式,在继承二者优点的同时规避了其局限性。我们通过理论分析和实证实验验证了ResiDual的有效性。理论上,我们证明ResiDual通过Pre-LN的残差连接避免了梯度消失问题,其梯度存在下界;此外,ResiDual还通过Post-LN的残差连接保持了多样化的模型表征,从而规避了坍缩问题。实验表明,在不同网络深度和数据规模的多个机器翻译基准测试中,ResiDual均优于Post-LN和Pre-LN。得益于优异的理论和实证表现,ResiDual Transformer可作为各类AI模型(如大语言模型)的基础架构。


