# Agentic 关键训练 Agentic 关键训练是一种新兴的机器学习范式，旨在开发具有。.

完整版

大型语言模型（LLMs）作为自主智能体的训练通常始于模仿学习，但这仅仅教会智能体做什么而不理解原因：智能体永远不会将成功的行动与次优替代方案进行对比，因此缺乏对行动质量的认识。最近的方法试图通过引入源于专家行动与替代行动之间对比的自我反思监督来解决这个问题。然而，训练范式在根本上仍然是模仿学习：模型模仿预先构建的反思文本，而不是学习自主推理。我们提出智能体关键训练（Agentic Critical Training，ACT），一种强化学习范式，训练智能体在多个替代方案中识别更优行动。通过奖励模型判断的正确性，ACT驱动模型自主发展关于行动质量的推理，产生真实的自我反思而不是模仿它。在三个具有挑战性的智能体基准上，ACT在与不同的后训练方法结合时持续改进智能体性能。与模仿学习相比，它实现了平均5.07点的改进；与强化学习相比，实现了平均4.62点的改进。与通过知识蒸馏注入反思能力的方法相比，ACT也表现出明显优势，平均改进2.42点。此外，ACT在智能体基准上实现了强大的分布外泛化，并在没有任何推理特定训练数据的情况下改进了通用推理基准上的性能，凸显了我们方法的价值。这些结果表明ACT是开发更具反思性和能力的LLM智能体的有前景的方向。