[论文翻译]加速围棋的自我对弈学习
通过引入对 AlphaZero 过程和架构的几项改进,我们大大加速了围棋中的自我对弈学习,相比类似方法计算量减少了 50 倍。与 AlphaZero 以及如 ELF OpenGo 和 Leela Zero 等复现版本一样,我们的机器人 KataGo 仅从由神经网络引导的蒙特卡洛树搜索自我对弈中学习。然而,AlphaZero 需要数千个 TPU 运行数天,而 ELF 需要数千个 GPU 运行两周,KataGo 在不到 30 个 GPU 上仅用 19 天就超过了 ELF 的最终模型。大部分加速涉及非领域特定的改进,这些改进可能直接应用于其他问题。来自领域特定技术的进一步提升揭示了最佳方法与像 AlphaZero 这样的纯通用方法之间的效率差距。我们的工作是朝着在没有大规模计算资源的情况下,在像围棋这样大的状态空间中实现学习迈出的一步。