学习调整纯追踪在自动驾驶赛车中的应用：联合前瞻和转向增益控制与PPO

纯追求（PP）由于其效率和几何清晰性，在自动驾驶赛车中的实时路径跟踪中得到广泛应用，然而，其性能对关键参数——前瞻距离和转向增益的选择极为敏感。基于速度的标准调度方案仅对这些参数进行近似调整，并且往往无法在不同赛道和速度配置之间转移。我们提出了一种强化学习（RL）方法，该方法使用近端策略优化（PPO）在线联合选择前瞻距离Ld和转向增益g。策略观察紧凑的状态特征（速度和曲率采样），并在每个控制步骤输出（Ld，g）。在F1TENTH Gym中训练并在ROS 2堆栈中部署的策略直接驱动PP（轻微平滑）且无需为每张地图重新调整。在仿真和真实车辆测试中，所提出的联合选择（Ld，g）的RL-PP控制器在各种评估设置下，包括圈速、路径跟踪精度和转向平滑性，均优于固定前瞻距离的PP、速度调度自适应PP以及仅使用RL前瞻的变体，这证明了策略引导的参数调整可以可靠地提高基于经典几何的控制。