[论文翻译]Linformer: 线性复杂度的自注意力机制

大型Transformer模型在诸多自然语言处理应用中展现出卓越性能，屡创最先进成果。然而，针对长序列场景，训练和部署这类模型可能成本过高，因为标准Transformer的自注意力机制相对于序列长度需要消耗\${\bar{O}}(n^{2})\$级别的时间和空间复杂度。本文证明自注意力机制可通过低秩矩阵近似实现，并基于此发现提出新型自注意力机制——将整体复杂度从\$O(n^{2})\$降至\$O(n)\$级别（时间与空间维度）。由此产生的线性Transformer（Linformer）在保持与标准Transformer相当性能的同时，显著提升了内存和计算效率。