[论文翻译]Synthesizer: 重新思考Transformer模型中的自注意力机制

点积自注意力 (dot product self-attention) 机制被认为是当前最先进 Transformer 模型的核心且不可或缺的组成部分。但它真的必不可少吗？本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献。通过大量实验，我们发现：(1) 随机对齐矩阵的表现出人意料地具有竞争力；(2) 从 token-token (query-key) 交互中学习注意力权重虽然有用，但最终并不那么重要。为此，我们提出了 SYNTHESIZER——一种无需 token-token 交互即可学习合成注意力权重的模型。在实验中，我们首先证明：与原始 Transformer 模型相比，简单的 Synthesizer 在机器翻译、语言建模、文本生成以及 GLUE/SuperGLUE 基准测试等一系列任务中均能实现极具竞争力的性能。当与点积注意力结合使用时，Synthesizer 始终优于 Transformer。此外，我们将 Synthesizer 与动态卷积 (Dynamic Convolutions) 进行对比，结果表明简单的随机 Synthesizer 不仅速度快 60%，还能将困惑度相对降低 3.5%。最后，我们证明在纯编码任务中，简单的因子分解 Synthesizer 可以超越 Linformer。

由卡汁发布于 2025-04-03 13:01:08 点积自注意力机械Transformer 模型Synthesizer 阅读次数 636