[论文翻译]Transformer的前馈层是键值记忆存储

前馈层占据Transformer模型三分之二的参数量，但其在网络中的作用仍未得到充分研究。我们发现基于Transformer的大语言模型中，前馈层实际扮演着键值记忆体的角色——每个键（key）与训练样本中的文本模式相关联，而每个值（value）则对应输出词表的概率分布。实验表明：这些学习到的模式具有人类可解释性，其中底层倾向于捕捉表层模式，而高层则学习更具语义性的模式；值通过将概率质量集中在各模式后可能出现的token上（尤以高层显著）来补充键的输入模式；最终，前馈层输出是其记忆体的组合结果，该结果通过残差连接在模型各层中逐步精炼，形成最终输出分布。