[论文翻译]定位并编辑GPT中的事实关联
Locating and Editing Factual Associations in GPT
定位并编辑GPT中的事实关联
Kevin Meng⇤ MIT CSAIL
Kevin Meng⇤ MIT CSAIL
David Bau⇤ Northeastern University
David Bau⇤ 东北大学
Alex Andonian MIT CSAIL
Alex Andonian MIT CSAIL
Yonatan Belinkov† Technion – IIT
Yonatan Belinkov...
我们分析了自回归Transformer语言模型中事实关联的存储与检索过程,发现这些关联对应于局部化、可直接编辑的计算机制。首先开发了一种因果干预方法,用于识别对模型事实预测起决定性作用的神经元激活。该方法揭示了中间层前馈模块在处理主体token时调节事实预测的一系列独特步骤。为验证"这些计算对应事实关联检索"的假设,我们使用Rank-One模型编辑(ROME)技术修改前馈权重来更新特定事实关联。实验表明,ROME在标准零样本关系抽取(zsRE)模型编辑任务中表现优异。针对新构建的反事实断言数据集,ROME能同时保持特异性和泛化能力,而其他方法往往需要牺牲其中一项。研究结果证实了中间层前馈模块在存储事实关联中的重要作用,表明直接操纵计算机制可能是模型编辑的可行途径。代码、数据集、可视化结果及交互式演示笔记本详见https://rome.baulab.info/。