# 使用逻辑选项预训练增强深度强化学习 ## 摘要深度强化学习（DRL）在许多。.

深度强化学习代理通常存在目标不对齐的问题，因为它们过度利用早期的奖励信号。最近，几种符号方法通过编码稀疏目标和对齐的计划来解决这些挑战。然而，纯符号架构在规模扩展上复杂且难以应用于连续设置。因此，我们提出了一种混合方法，灵感人类获取新技能的能力。我们使用一个两阶段框架，将符号结构注入到基于神经网络的强化学习代理中，同时不牺牲深层策略的表达能力。我们的方法称为混合分层强化学习（H²RL），引入了一种逻辑选项的预训练策略，以引导学习策略远离短期奖励循环，转向目标导向行为，同时允许最终策略通过标准环境交互进行优化。在经验上，我们展示了这种方法持续改进长视界决策制定，并产生了优于强大的神经网络、符号和神经符号基准的代理。