[论文翻译]Transformer 是 RNN:具有线性注意力的快速自回归 Transformer
Transformer 在多项任务中表现出色,但由于其计算复杂度与输入长度呈平方关系,在处理超长序列时速度极慢。为突破这一限制,我们将自注意力机制表述为核特征映射的线性点积,并利用矩阵乘法的结合律特性,将复杂度从 \$\mathcal{O}\left(N^{2}\right)\$ 降至 \$\mathcal O\left(N\right)\$(其中 \$N\$ 为序列长度)。研究表明,这种形式化方法支持迭代实现,能显著加速自回归 Transformer,同时揭示其与循环神经网络的内在关联。我们的线性 Transformer 性能与标准 Transformer 相当,在超长序列的自回归预测任务中速度提升高达 \$4000\mathrm{x}\$。