# 使用逻辑选项预训练增强深度强化学习 ## 摘要 深度强化学习(DRL)在许多。.

深度强化学习代理通常存在目标不对齐的问题,因为它们过度利用早期的奖励信号。最近,几种符号方法通过编码稀疏目标和对齐的计划来解决这些挑战。然而,纯符号架构在规模扩展上复杂且难以应用于连续设置。因此,我们提出了一种混合方法,灵感人类获取新技能的能力。我们使用一个两阶段框架,将符号结构注入到基于神经网络的强化学习代理中,同时不牺牲深层策略的表达能力。我们的方法称为混合分层强化学习(H²RL),引入了一种逻辑选项的预训练策略,以引导学习策略远离短期奖励循环,转向目标导向行为,同时允许最终策略通过标准环境交互进行优化。在经验上,我们展示了这种方法持续改进长视界决策制定,并产生了优于强大的神经网络、符号和神经符号基准的代理。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行