[论文翻译]基于不确定性感知的动作解耦Transformer用于动作预测
人类行为预测旨在基于过去的观察预测人们未来的行为。本文提出了一种用于行为预测的不确定性感知行为解耦Transformer (UADT)。与现有直接以动词-名词对格式预测行为的方法不同,我们将行为预测任务解耦为独立的动词预测和名词预测,目的是让这两个解耦任务相互辅助,最终提升行为预测性能。具体而言,我们提出了一个基于Transformer的双流架构,包含动词到名词模型和名词到动词模型。动词到名词模型利用动词信息改进名词预测,反之亦然。我们以概率方式扩展模型,量化每个解耦任务的预测不确定性以选择特征。这样,名词预测能利用最具信息量且无冗余的动词特征,动词预测同理运作。最终,基于各自不确定性动态融合双流信息,实现联合行为预测。通过在EPIC-KITCHENS、EGTEA Gaze+和50-Salads等行为预测基准测试中取得最先进性能,验证了方法的有效性。