• [论文翻译]ResiDual: 具有双重残差连接的Transformer

    Transformer网络因其最先进的性能已成为许多任务的首选架构。然而,关于如何最佳实现Transformer中残差连接(这对有效训练至关重要)的方式仍存在争议。目前广泛使用的两种变体是后层归一化(Post-LN)和前层归一化(Pre-LN)Transformer,它们分别将层归一化应用于每个残差块的输出之后或输入之前。尽管这两种变体各有优势,但也存在严重缺陷:Post-LN会导致梯度消失问题,阻碍深层Transformer的训练;而Pre-LN则会导致表征坍缩问题,限制模型容量。本文提出ResiDual——一种采用前-后层归一化(PPLN)的新型Transformer架构,它融合了Post-LN和Pre-LN的连接方式,在继承二者优点的同时规避了其局限性。我们通过理论分析和实证实验验证了ResiDual的有效性。理论上,我们证明ResiDual通过Pre-LN的残差连接避免了梯度消失问题,其梯度存在下界;此外,ResiDual还通过Post-LN的残差连接保持了多样化的模型表征,从而规避了坍缩问题。实验表明,在不同网络深度和数据规模的多个机器翻译基准测试中,ResiDual均优于Post-LN和Pre-LN。得益于优异的理论和实证表现,ResiDual Transformer可作为各类AI模型(如大语言模型)的基础架构。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个专注于科研服务的智能平台
在这里您可以获得本平台自训练的
科研智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众知识的桥梁
让科学生活融入日常
登陆小程序
AI数字人随身守护
智慧管理更高效
生活品质悄然升级

千集助理