What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study
在线策略强化学习中什么最重要?一项大规模实证研究
Marcin An dry ch owicz, Anton Raichuk, Piotr Stanczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin...
近年来,策略强化学习 (on-policy reinforcement learning, RL) 已成功应用于多种连续控制任务。尽管RL算法在概念上通常很简单,但其最先进的实现涉及大量底层和顶层设计决策,这些决策会显著影响最终智能体的性能。这些选择在文献中通常未被充分讨论,导致算法描述与其实现之间存在差异[27]。这使RL领域的进展难以归因,并拖慢了整体发展速度。为填补这一空白,我们在统一的策略RL框架中实现了\${>}50\$项此类"选择",通过大规模实验研究其影响。我们在五个不同复杂度的连续控制环境中训练了超过\$250^{\ '}000\$个智能体,为策略RL训练提供了洞见和实践建议。