[论文翻译]SpineNet: 学习尺度可置换主干网络用于识别与定位

卷积神经网络通常将输入图像编码为一系列分辨率递减的中间特征。虽然这种结构适用于分类任务，但在需要同时进行识别和定位的任务（如目标检测）中表现不佳。为此提出的编码器-解码器架构通过在分类任务设计的骨干模型上应用解码网络来解决这一问题。本文认为，由于骨干网络存在尺度缩减问题，编码器-解码器架构难以生成强健的多尺度特征。我们提出SpineNet——一种通过神经架构搜索在目标检测任务中学习得到的、具有尺度置换中间特征和跨尺度连接的骨干网络。使用类似构建模块时，SpineNet模型在不同尺度上以减少10-20%计算量（FLOPs）的优势，将AP指标提升约3%。具体而言，SpineNet-190在COCO数据集上使用Mask R-CNN检测器达到52.5% AP，使用RetinaNet检测器达到52.1% AP（单模型未使用测试时增强），显著超越现有检测器的最佳水平。SpineNet可迁移至分类任务，在具有挑战性的iNaturalist细粒度数据集上实现top-1准确率5%的提升。

由 Ylong发布于 2025-04-14 22:44:33 卷积神经网络SpineNet 阅读次数 625