[论文翻译]LoopCoder-v2: 仅循环一次以实现高效的测试时计算扩展 (Efficient Test-Time Computation Scaling)
循环Transformer通过重复应用共享模块来扩展潜在计算,但顺序循环会增加延迟和KV缓存内存,且与循环次数成正比。并行循环Transformer (Parallel Loop Transformer, PLT) 通过跨循环位置偏移 (Cross-Loop Position Offset, CLP) 和共享KV门控滑动窗口注意力机制缓解了这一成本,使循环次数成为可行的设计选择。因此,我们通过增益-成本视角研究PLT的循环次数选择:额外循环可能优化表征,但CLP也会在每个循环边界引入位置错位。我们通过训练LoopCoder-v2来实例化这项研究,这是一个具有不同循环次数的7B PLT编程模型系列,从头开始在18T token上训练,随后进行匹配的指令微调和评估。实验表明,双循环变体在代码生成、代码推理、智能体软件工程和工具使用基准测试中,相较于无循环基线展现出广泛优势,将SWEbench Verified得分从43.0提升至64.4,Multi-SWE得分从14.0提升至31.0。相比之下,三循环及更多循环的变体性能反而下降,揭示了强烈的非单调循环次数效应。诊断分析显示,循环2提供了主要的有效优化,而后续循环则产生递减的振荡更新和降低的表示多样性。由于随着优化增益缩小,CLP引起的错位保持相对固定,偏移成本逐渐占据主导。这种增益-成本权衡解释了PLT在两个循环达到饱和的现象,并为循环次数选择提供了诊断依据。

