# 通过最优传输实现LLM中的高效拒绝消融 ## 摘要 大型语言模型(LLM)存在安。.
安全对齐的语言模型通过编码在其内部表示中的学习拒绝行为来拒绝有害请求。最近的基于激活的越狱方法通过应用正交投影来移除拒绝方向,从而规避这些安全机制,但这些方法将拒绝视为一维现象,忽略了模型激活的丰富分布结构。我们引入了一个基于最优运输理论的原则性框架,该框架将有害激活的整个分布变换为与无害激活相匹配。通过将PCA与闭式高斯最优运输相结合,我们在高维表示空间中实现了高效计算,同时保留了必要的几何结构。在六个模型(Llama-2、Llama-3.1、Qwen-2.5;7B-32B参数)上,我们的方法相比最先进的基线方法实现了高达11%的攻击成功率提升,同时保持了可比较的困惑度,展示了对模型能力的卓越保护。至关重要的是,我们发现层选择性干预(在网络深度约40-60%处选择1-2个精心挑选的层应用最优运输)的性能远优于全网络干预,揭示了拒绝机制可能是本地化的而非分布式的。我们的分析为安全表示的几何结构提供了新的洞见,并表明当前的对齐方法可能易受超越简单方向移除的分布式攻击所攻击。
赞
评论
请
登录后发表观点
