从思维链中厘清模型信念 **摘要** 大型语言模型(LLMs)通过思维链(CoT)提。.
我们提供了关于推理模型中表现性思维链(CoT)的证据,其中模型对其最终答案变得高度自信,但继续生成令牌而不透露其内部信念。我们的分析比较了激活探针、早期强制答题和CoT监视器在两个大型模型(DeepSeek-R1 671B & GPT-OSS 120B)中的表现,并发现任务难度特异性差异:模型的最终答案可从CoT中远早于监视器能够识别的位置从激活中解码,特别是对于简单的基于回忆的MMLU问题。我们将其与困难的多跳GPQA-Diamond问题中的真实推理进行对比。尽管如此,拐点(例如回溯、"恍然大悟"时刻)几乎完全出现在探针显示大信念转变的响应中,这表明这些行为追踪的是真实的不确定性而非学习到的"推理表演"。最后,探针引导的早期退出在MMLU上减少了高达80%的令牌,在GPQA-Diamond上减少了30%,同时保持相似的准确性,将注意力探针定位为检测表现性推理和启用自适应计算的有效工具。
赞
评论
请
登录后发表观点
