• [论文翻译]通过利用风险驾驶行为知识构建更安全的自主代理

    仿真环境对于以抽象的方式学习不同的驾驶任务,如车道更换,停车或处理交叉点等。然而,这些模拟环境通常限制在不同车辆之间的保守相互作用行为下运行。但是,正如我们所知,真正的驾驶任务往往涉及非常高的风险场景,其他司机通常不会在预期的意义上表现。这种行为可能有很多原因,如疲倦或缺乏经验。仿真环境不会在训练导航代理时考虑此信息。因此,在这项研究中,我们特别关注系统地创建这些风险易发的情景,其具有繁忙的交通和意外的随机行为,以创建更好的无模型学习代理。我们通过在Highway-Env仿真包中创建新的自定义马尔可夫决策过程(MDP)环境迭代来生成多个自主驱动方案。该行为政策是由深度加强学习模型的帮助训练的代理人学习。我们的行为政策是刻意处理碰撞和风险的随机驱动程序行为。我们培养模型自由学习代理商,风险易受驾驶场景的补充信息,并将其与基线代理商的表现进行比较。最后,我们随便衡量在训练过程中添加这些扰动的影响,精确地算用于利用这些方案的学习所获得的性能改进。 \ begin {IeeeKeywords}自治代理,驾驶模拟,轨迹预测,因果关系\结束{IeeeKeywords}
  • [论文翻译]利用策略优化学习车辆路径问题

    深度加强学习(DRL)已被用于学习通过策略网络解决复杂组合优化问题的有效启发式,并表现出了有希望的性能。现有的作品专注于解决(车辆)路由问题,因为它们在非琐事和困难之间具有很好的平衡。最先进的方法学习使用强化学习的政策,学习政策充当伪求解器。这些方法在某些情况下表现出良好的性能,但鉴于大型搜索空间典型的组合/路由问题,它们可以过快地收敛到较差的政策。为了防止这一点,我们提出了一种通过提供更多随机策略来支持探索的方法名称熵正则化强化学习(ERRL),这往往会改善优化。经验上,低方差errl提供快速稳定的RL训练。我们还在测试时间内引入了本地搜索运算符的组合,这显着提高了解决方案和补充错误。我们定性证明,对于车辆路由问题,具有更高熵的策略可以使优化景观平滑,这使得更容易优化。定量评估表明,该模型的性能与最先进的变体相当。在我们的评估中,我们通过实验说明该模型在车辆路由问题的变体上产生最先进的性能,例如电容车辆路由问题(CVRP),多次路由与固定的舰队问题(MRPFF)和旅行推销员问题。
公告

AI千集是一个人工智能信息平台。
它是由一群AI算法工程师搭建的。
希望能帮助从业者快速跟踪学术动态
希望能帮助初学者提高算法应用能力
来千集,跟上先行者的脚步
扫一扫,加入我们
公众号

题灵是连通AI学研和就业的桥梁
登陆小程序
获取千集AI课程和论文
挑战万道AI面试题

题灵

码涯是学习代码基础知识的开源书库
登陆小程序
一键开启免费学习代码编程之旅

码涯