流体表示在推理模型中的应用
推理语言模型,能够生成长链的思考,在抽象问题上显著优于非推理语言模型。然而,允许这种优越性能的内部模型机制仍然了解不多。我们提出了对QwQ-32B如何处理抽象结构信息的机制分析——QwQ-32B是一种专门训练以产生广泛推理痕迹的模型。在神秘方块世界——一个语义混淆的计划领域——我们发现,QwQ-32B在推理过程中逐渐改善其内部的动作和概念表示。该模型发展出抽象编码,侧重于结构而不是具体动作名称。通过引导实验,我们建立了因果证据,表明这些适应性改进了解决问题:从成功的痕迹中注入精细化的表示可以提高准确性,而符号表示可以用最小的性能损失替代许多混淆的编码。我们发现,驱动推理模型性能的一个因素是在上下文中对标记表示的精细化,我们将之称为流动推理表示。
赞
评论
请
登录后发表观点
