[论文翻译]DFORMER: 重新思考RGBD语义分割的表征学习
我们提出DFormer,这是一种新颖的RGB-D预训练框架,旨在学习可迁移的RGB-D分割任务表征。DFormer具备两项关键创新:1) 不同于以往通过RGB预训练主干编码RGB-D信息的工作,我们使用ImageNet-1K中的图像-深度对进行主干预训练,从而使DFormer具备编码RGB-D表征的能力;2) DFormer由一系列RGB-D模块组成,这些模块通过新颖的结构设计专门用于编码RGB和深度信息。DFormer避免了现有方法中普遍存在但尚未解决的、由RGB预训练主干对深度图三维几何关系的不匹配编码问题。我们在两个主流RGB-D任务(RGB-D语义分割和RGB-D显著目标检测)上对预训练的DFormer进行轻量级解码头微调。实验结果表明,DFormer在两项任务上以不到当前最佳方法一半的计算成本,在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上实现了最先进的性能。代码已开源:https://github.com/VCIP-RGBD/DFormer。