仿真环境对于以抽象的方式学习不同的驾驶任务,如车道更换,停车或处理交叉点等。然而,这些模拟环境通常限制在不同车辆之间的保守相互作用行为下运行。但是,正如我们所知,真正的驾驶任务往往涉及非常高的风险场景,其他司机通常不会在预期的意义上表现。这种行为可能有很多原因,如疲倦或缺乏经验。仿真环境不会在训练导航代理时考虑此信息。因此,在这项研究中,我们特别关注系统地创建这些风险易发的情景,其具有繁忙的交通和意外的随机行为,以创建更好的无模型学习代理。我们通过在Highway-Env仿真包中创建新的自定义马尔可夫决策过程(MDP)环境迭代来生成多个自主驱动方案。该行为政策是由深度加强学习模型的帮助训练的代理人学习。我们的行为政策是刻意处理碰撞和风险的随机驱动程序行为。我们培养模型自由学习代理商,风险易受驾驶场景的补充信息,并将其与基线代理商的表现进行比较。最后,我们随便衡量在训练过程中添加这些扰动的影响,精确地算用于利用这些方案的学习所获得的性能改进。 \ begin {IeeeKeywords}自治代理,驾驶模拟,轨迹预测,因果关系\结束{IeeeKeywords}