流体表示在推理模型中的应用

推理语言模型，能够生成长链的思考，在抽象问题上显著优于非推理语言模型。然而，允许这种优越性能的内部模型机制仍然了解不多。我们提出了对QwQ-32B如何处理抽象结构信息的机制分析——QwQ-32B是一种专门训练以产生广泛推理痕迹的模型。在神秘方块世界——一个语义混淆的计划领域——我们发现，QwQ-32B在推理过程中逐渐改善其内部的动作和概念表示。该模型发展出抽象编码，侧重于结构而不是具体动作名称。通过引导实验，我们建立了因果证据，表明这些适应性改进了解决问题：从成功的痕迹中注入精细化的表示可以提高准确性，而符号表示可以用最小的性能损失替代许多混淆的编码。我们发现，驱动推理模型性能的一个因素是在上下文中对标记表示的精细化，我们将之称为流动推理表示。