[论文翻译]Synthesizer: 重新思考Transformer模型中的自注意力机制
点积自注意力 (dot product self-attention) 机制被认为是当前最先进 Transformer 模型的核心且不可或缺的组成部分。但它真的必不可少吗?本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献。通过大量实验,我们发现:(1) 随机对齐矩阵的表现出人意料地具有竞争力;(2) 从 token-token (query-key) 交互中学习注意力权重虽然有用,但最终并不那么重要。为此,我们提出了 SYNTHESIZER——一种无需 token-token 交互即可学习合成注意力权重的模型。在实验中,我们首先证明:与原始 Transformer 模型相比,简单的 Synthesizer 在机器翻译、语言建模、文本生成以及 GLUE/SuperGLUE 基准测试等一系列任务中均能实现极具竞争力的性能。当与点积注意力结合使用时,Synthesizer 始终优于 Transformer。此外,我们将 Synthesizer 与动态卷积 (Dynamic Convolutions) 进行对比,结果表明简单的随机 Synthesizer 不仅速度快 60%,还能将困惑度相对降低 3.5%。最后,我们证明在纯编码任务中,简单的因子分解 Synthesizer 可以超越 Linformer。