# 使用逻辑选项预训练增强深度强化学习 ## 摘要 深度强化学习(DRL)在许多。.
深度强化学习代理通常存在目标不对齐的问题,因为它们过度利用早期的奖励信号。最近,几种符号方法通过编码稀疏目标和对齐的计划来解决这些挑战。然而,纯符号架构在规模扩展上复杂且难以应用于连续设置。因此,我们提出了一种混合方法,灵感人类获取新技能的能力。我们使用一个两阶段框架,将符号结构注入到基于神经网络的强化学习代理中,同时不牺牲深层策略的表达能力。我们的方法称为混合分层强化学习(H²RL),引入了一种逻辑选项的预训练策略,以引导学习策略远离短期奖励循环,转向目标导向行为,同时允许最终策略通过标准环境交互进行优化。在经验上,我们展示了这种方法持续改进长视界决策制定,并产生了优于强大的神经网络、符号和神经符号基准的代理。
赞
评论
请
登录后发表观点
