[论文翻译]Slim attention: 无需损失精度,将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部
Slim attention 通过将上下文内存大小缩小 \$2\mathbf{x}\$ 来优化带有 MHA(多头注意力机制)的 Transformer 模型,这可以在大上下文窗口的情况下将推理速度提升至多 \$2\mathbf{x}\$。Slim attention 是标准注意力机制的精确数学等价实现,因此不会影响模型的准确性。换句话说,Slim attention 无损地将上下文内存压缩了 2 倍。对于编码器-解码器 Transformer,上下文内存大小可以进一步减少:例如,对于 Whisper 模型,Slim attention 将上下文内存减少了 8 倍,这可以在批量大小为 64 的情况下将 Token 生成速度提升 \$\operatorname{5x}\$。对于 MHA 投影维度大于 \$d_{\mathrm{model}}\$ 的罕见情况,例如 T5-11B 模型,内存可以减少 32 倍。代码和更多 Transformer 技巧请参见 [1],关于本文的 YouTube 视频请参见 [2]。