对齐崩溃的几何学：当微调破坏安全性时

完整版

在良性的任务上微调对齐的语言模型会意外地降低安全防护措施，即使训练数据中不包含有害内容，开发者也没有对抗意图。我们表明，盛行的解释，即微调更新应该与高维参数空间中安全关键的方向正交，提供了虚假的安慰：我们表明这种正交性在结构上是不稳定的，在梯度下降的动力学下会崩溃。然后，我们通过一种新颖的几何分析来解决这一问题，证明对齐集中在具有尖锐曲率的低维子空间中，形成了一种脆弱的结构，一阶方法无法检测或防御。尽管初始的微调更新确实可以避免这些子空间，但微调损失的曲率会产生二阶加速，系统地引导轨迹进入对齐敏感的区域。我们通过对齐不稳定性条件来形式化这一机制，该条件包括三个几何属性，当共同满足时会导致安全退化。我们的主要结果建立了一个四次方缩放定律：对齐损失随着训练时间的四次方增长，受对齐几何的尖锐性和微调任务与安全关键参数之间曲率耦合的强度所控制。这些结果揭示了当前安全范式中的一个结构性盲点。针对安全微调的占主导地位的方法仅解决了这个根本上是动态问题的初始快照。对齐脆弱性不是一个需要修复的错误；它是曲率流形上梯度下降的内禀几何属性。我们的结果促使开发曲率感知方法，我们希望这将进一步使对齐安全分析从反应式红队转变为开放权重模型部署的预测性诊断。