[论文翻译]使用降噪自编码器正则化轨迹优化 利用学习到的环境模型进行轨迹优化是基于模型的强化学习的核心要素之一。该方法常因利用学习模型中的不准确性而受到影响。我们提出通过去噪自编码器对轨迹优化进行正则化,该编码器与环境模型在同一轨迹上训练。研究表明,所提出的正则化方法能提升基于梯度和无梯度优化器的规划效果。实验还证明,在多种常见运动控制任务中,使用正则化轨迹优化可加速初期学习进程,这表明该方法有望成为提升样本效率的有效工具。 由 卡汁发布于 2025-03-30 13:32:38 去噪自编码器正则化轨迹优化基于模型的强化学习 阅读次数 274