[论文翻译]面向野外单目视频的鲁棒平滑3D多人姿态估计
3D姿态估计是计算机视觉中一项极具价值的任务,拥有多种实际应用。特别是基于单目视频的多人物3D姿态估计(3DMPPE)尤为困难,目前仍存在大量未探索领域,远未达到应用于真实场景的水平。我们指出现有方法的三个未解决问题:训练时对未见视角缺乏鲁棒性、易受遮挡影响以及输出存在严重抖动。为此,我们提出POTR-3D——首个面向3DMPPE的序列到序列2D转3D提升模型,采用创新的几何感知数据增强策略,能够生成无限视角数据并兼顾地平面约束与遮挡处理。通过大量实验验证,该模型与数据增强方案能稳健泛化至多样未见视角,有效恢复重度遮挡下的姿态,并生成更自然平滑的输出。我们的方法不仅在公开基准测试中达到最先进性能,更通过更具挑战性的真实场景视频定性结果验证了其有效性。演示视频详见https://www.youtube.com/@potr3d。