[论文翻译]利用策略优化学习车辆路径问题
深度加强学习(DRL)已被用于学习通过策略网络解决复杂组合优化问题的有效启发式,并表现出了有希望的性能。现有的作品专注于解决(车辆)路由问题,因为它们在非琐事和困难之间具有很好的平衡。最先进的方法学习使用强化学习的政策,学习政策充当伪求解器。这些方法在某些情况下表现出良好的性能,但鉴于大型搜索空间典型的组合/路由问题,它们可以过快地收敛到较差的政策。为了防止这一点,我们提出了一种通过提供更多随机策略来支持探索的方法名称熵正则化强化学习(ERRL),这往往会改善优化。经验上,低方差errl提供快速稳定的RL训练。我们还在测试时间内引入了本地搜索运算符的组合,这显着提高了解决方案和补充错误。我们定性证明,对于车辆路由问题,具有更高熵的策略可以使优化景观平滑,这使得更容易优化。定量评估表明,该模型的性能与最先进的变体相当。在我们的评估中,我们通过实验说明该模型在车辆路由问题的变体上产生最先进的性能,例如电容车辆路由问题(CVRP),多次路由与固定的舰队问题(MRPFF)和旅行推销员问题。