• [论文翻译]基于多模态球面图像的单帧语义分割

    近年来,研究界对提供360°全方位视角的全景图像表现出浓厚兴趣。为实现其潜力,可输入多种数据模态,并基于语义分割利用互补特征进行更鲁棒、更丰富的场景理解。然而现有研究主要集中于针孔RGB-X语义分割。本研究提出一种基于Transformer的跨模态融合架构,以弥合多模态融合与全向场景感知之间的差距。我们采用失真感知模块来解决等距柱状投影导致的极端物体形变和全景畸变。此外,在合并特征前进行跨模态交互以实现特征校正和信息交换,从而在双模态和三模态特征流中传递远程上下文关系。通过在三个室内全景数据集的四种模态组合上进行全面测试,我们的技术实现了最先进的mIoU性能:斯坦福2D3DS[2] (RGB-HHA)达60.60%,Structured3D[44] (RGB-D-N)达71.97%,Matterport3D[5] (RGB-D)达35.92%。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理