自监督强化学习 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]通过自监督世界模型进行探索规划

强化学习能够解决复杂任务，但学习过程往往针对特定任务且样本效率仍是挑战。我们提出Plan 2 Explore，这是一种自监督强化学习智能体，通过新颖的自监督探索方法和快速适应新任务的能力（探索期间无需知晓任务）来应对这些挑战。在探索阶段，与现有方法仅在智能体到达观测点后回溯计算新颖性不同，我们的智能体通过规划主动寻求预期未来新颖性来高效行动。探索结束后，该智能体能以零样本或少样本方式快速适应多个下游任务。我们在高维图像输入的复杂控制任务上进行了评估。在没有任何训练监督或任务特定交互的情况下，Plan 2 Explore超越了现有自监督探索方法，其性能甚至接近可获取奖励信息的预言机系统。视频与代码：https://ramanans1.github.io/plan2explore/

由卡汁发布于 2025-03-29 22:15:51 强化学习Plan 2 Explore自监督强化学习阅读次数 1080