[论文翻译]YOLOE: 实时视觉感知

目标检测和分割在计算机视觉应用中广泛使用，然而像 YOLO 系列这样的传统模型虽然高效且准确，但受限于预定义的类别，阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题，但由于高计算需求或部署复杂性，往往在性能和效率之间做出妥协。在本工作中，我们引入了 YOLOE，它在单一高效模型中集成了多种开放提示机制下的检测和分割，实现了实时感知任何事物。对于文本提示，我们提出了可重参数化的区域-文本对齐 (RepRTA) 策略。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入，并以零推理和迁移开销增强视觉-文本对齐。对于视觉提示，我们提出了语义激活的视觉提示编码器 (SAVPE)。它采用解耦的语义和激活分支，以最小的复杂性带来改进的视觉嵌入和准确性。对于无提示场景，我们引入了惰性区域-提示对比 (LRPC) 策略。它利用内置的大词汇表和专用嵌入来识别所有对象，避免了对昂贵语言模型的依赖。大量实验表明，YOLOE 在零样本性能和迁移能力方面表现出色，具有高推理效率和低训练成本。值得注意的是，在 LVIS 上，YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 更少的训练成本和 \$I.4\times\$ 的推理速度提升，超越了 YOLO-Worldv2-S 的 \$3.5~A P.\$ 当迁移到 COCO 时，YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的增益，且训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。

由 shadow发布于 2025-03-19 14:51:20 大模型机器视觉图像应用阅读次数 580