# 面向Python的神经调试器

在Python执行跟踪上训练大型语言模型(LLMs)使其扎根于代码执行，并能够逐行预测整个Python程序的执行，有效地将其转化为神经解释器(FAIR CodeGen Team等，2025)。然而，开发人员很少逐步执行程序；相反，他们使用调试器在某些断点处停止执行，仅在检查或修改程序变量时逐步执行相关部分。现有的神经解释器方法缺乏这样的交互控制。为了解决这一限制，我们引入了神经调试器：语言模型，用于模拟传统调试器，支持诸如进入、越过或跳出函数等操作，以及在特定源代码行设置断点。我们表明神经调试器——通过微调大型LLMs或从零开始预训练较小模型而获得——能够可靠地根据调试器操作对前向执行(预测未来状态和输出)和逆向执行(推断先前状态或输入)进行建模。在CruxEval上的评估中，我们的模型在输出和输入预测任务上都取得了强劲的性能，展示了稳健的条件执行建模。我们的工作向未来的代理编码系统迈出了第一步，在这些系统中神经调试器充当模拟调试环境的世界模型，提供执行反馈或使代理能够与真实调试工具交互。这一能力为更强大的代码生成、程序理解和自动化调试奠定了基础。