[论文翻译]蒸馏任意深度:蒸馏打造更强大的单目深度估计器
单目深度估计 (Monocular Depth Estimation, MDE) 旨在从单个 RGB 图像中预测场景深度,并在 3D 场景理解中发挥着关键作用。最近的零样本 MDE 进展利用归一化深度表示和基于蒸馏的学习来提升跨多样场景的泛化能力。然而,当前依赖于全局归一化的深度归一化方法可能会放大噪声伪标签,从而降低蒸馏效果。本文中,我们系统分析了不同深度归一化策略对伪标签蒸馏的影响。基于我们的发现,我们提出了跨上下文蒸馏 (Cross-Context Distillation),该方法整合了全局和局部深度线索以提升伪标签质量。此外,我们引入了一个多教师蒸馏框架,该框架利用了不同深度估计模型的互补优势,从而生成更鲁棒和准确的深度预测。在基准数据集上的大量实验表明,我们的方法在定量和定性上均显著优于现有最先进的方法。