几乎必然收敛的微分时序差分学习在平均奖励马尔可夫决策过程中的应用

平均奖励是强化学习（RL）中一个基本的性能指标，它关注智能体的长期性能。差分时间差分（TD）学习算法是平均奖励RL的一个重要进步，因为它们在策略和离策略设置下都提供了一种高效的在线方法来学习与平均奖励相关的价值函数。然而，现有的收敛保证需要与状态访问次数相关的学习率局部时钟，而实践者并没有使用这种方法，并且它也没有扩展到表格设置之外。我们通过使用不带局部时钟的标准递减学习率，证明了策略性$ n $步差分TD在任何$ n $下的几乎必然收敛。然后，我们推导出三个充分条件，在这些条件下，离策略$ n $步差分TD也无需局部时钟即可收敛。这些结果加强了差分TD的理论基础，并使其收敛分析更接近实际应用。