# PostTrainBench：大语言模型智能体能否自动化大语言模型的后训练？ ## Abstract。.

完整版

在过去的一年中，人工智能代理在软件工程方面变得出乎意料地熟练，这在很大程度上是由于推理能力的改进。这引出了一个更深层的问题：这些系统能否将其能力扩展到自动化人工智能研究本身？在本文中，我们探讨后训练，这是将基础大语言模型转变为有用助手的关键阶段。我们引入了PostTrainBench来基准测试大语言模型代理在有界计算约束下（一块H100 GPU上10小时）自主执行后训练的能力。我们要求前沿代理（例如，Claude Code with Opus 4.6）在特定基准上优化基础大语言模型的性能（例如，Qwen3-4B在AIME上的性能）。重要的是，我们没有为代理提供任何预定义的策略，而是给予它们完全的自主权来寻找网络上的必要信息、运行实验和管理数据。我们发现前沿代理取得了实质性的进展，但通常落后于领先提供商的指令调优大语言模型：最佳代理为23.2%，而官方指令调优模型为51.1%。然而，代理可以在特定场景中超越指令调优模型：GPT-5.1 Codex Max在BFCL上使用Gemma-3-4B达到89%，而官方模型为67%。我们还观察到了几种值得关注的失败模式。代理有时会进行奖励黑客行为：在测试集上训练、下载现有的指令调优检查点而不是训练自己的、以及使用他们找到的API密钥在未经授权的情况下生成合成数据。这些行为令人担忧，强调了在这些系统变得更强大时进行仔细沙箱隔离的重要性。总的来说，我们希望PostTrainBench对跟踪人工智能研究与开发自动化的进展以及研究其带来的风险有所帮助。网站和代码可在