CrispEdit:用于可扩展无损LLM编辑的低曲率投影
大型语言模型(LLM)编辑的一个核心挑战是能力保持:那些成功改变目标行为的方法可能会悄然操纵编辑代理并损害一般能力,产生类似代理/奖励黑客行为的退化行为。我们提出了CrispEdit,这是一种可扩展且基于原理的二次编辑算法,将能力保持视为一个显式约束,统一并推广了多种现有的编辑方法。CrispEdit将编辑表述为受约束的优化,并通过将编辑更新投影到能力损失景观的低曲率子空间来执行约束。CrispEdit的核心是利用Bregman散度表达能力约束,其二次形式在基模型未训练至收敛时也能精确地给出Gauss-Newton Hessian。我们使用Kronecker分解的近似曲率(K-FAC)和一种新颖的无矩阵投影器(该投影器利用Kronecker结构以避免构建大规模投影矩阵)使这一二次过程在LLM规模上高效。在标准模型编辑基准测试中,CrispEdit实现了高编辑成功率,同时将能力退化控制在平均低于1%,显著优于先前编辑器。
赞
评论
请
登录后发表观点
