[论文翻译]用于马尔可夫大语言模型测试时间扩展的思维原子
大语言模型 (LLMs) 通过训练时的扩展获得卓越的性能,而测试时的扩展通过在推理过程中进行有效推理进一步增强了它们的能力。然而,随着推理规模的增加,现有的测试时扩展方法受到累积历史信息的影响,这不仅浪费了计算资源,还干扰了有效的推理。为了解决这个问题,我们观察到复杂的推理过程通常通过解决一系列独立的子问题来实现,每个子问题都是自包含且可验证的。这些子问题本质上是原子问题,主要依赖于它们当前的状态而不是累积的历史,类似于马尔可夫过程中的无记忆转移。基于这一观察,我们提出了 Atom of Thoughts (AOT) ,其中推理过程中的每个状态转移包括将当前问题分解为基于依赖的有向无环图,并收缩其子问题,形成一个新的原子问题状态。这种迭代的分解-收缩过程持续进行,直到达到可直接解决的原子问题,自然而然地实现了问题状态之间的马尔可夫转移。此外,这些原子问题可以无缝集成到现有的测试时扩展方法中,使 AOT 成为一个提升推理能力的插件增强。在六个基准测试上的实验证明了 AOT 作为独立框架和插件增强的有效性。值得注意的是,在 HotpotQA 上,当应用于 gpt-4omini 时,AOT 实现了 80.6% 的 F1 分数,超过了 o3-mini 的 3.4% 和 DeepSeek-R1 的 10.6%。代码将在 https://github.com/qixucen/atom 上提供。