[论文翻译]基于多模态球面图像的单帧语义分割

近年来，研究界对提供360°全方位视角的全景图像表现出浓厚兴趣。为实现其潜力，可输入多种数据模态，并基于语义分割利用互补特征进行更鲁棒、更丰富的场景理解。然而现有研究主要集中于针孔RGB-X语义分割。本研究提出一种基于Transformer的跨模态融合架构，以弥合多模态融合与全向场景感知之间的差距。我们采用失真感知模块来解决等距柱状投影导致的极端物体形变和全景畸变。此外，在合并特征前进行跨模态交互以实现特征校正和信息交换，从而在双模态和三模态特征流中传递远程上下文关系。通过在三个室内全景数据集的四种模态组合上进行全面测试，我们的技术实现了最先进的mIoU性能：斯坦福2D3DS[2] (RGB-HHA)达60.60%，Structured3D[44] (RGB-D-N)达71.97%，Matterport3D[5] (RGB-D)达35.92%。