[论文翻译]YOLOE: 实时视觉感知
目标检测和分割在计算机视觉应用中广泛使用,然而像 YOLO 系列这样的传统模型虽然高效且准确,但受限于预定义的类别,阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题,但由于高计算需求或部署复杂性,往往在性能和效率之间做出妥协。在本工作中,我们引入了 YOLOE,它在单一高效模型中集成了多种开放提示机制下的检测和分割,实现了实时感知任何事物。对于文本提示,我们提出了可重参数化的区域-文本对齐 (RepRTA) 策略。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入,并以零推理和迁移开销增强视觉-文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器 (SAVPE)。它采用解耦的语义和激活分支,以最小的复杂性带来改进的视觉嵌入和准确性。对于无提示场景,我们引入了惰性区域-提示对比 (LRPC) 策略。它利用内置的大词汇表和专用嵌入来识别所有对象,避免了对昂贵语言模型的依赖。大量实验表明,YOLOE 在零样本性能和迁移能力方面表现出色,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 更少的训练成本和 \$I.4\times\$ 的推理速度提升,超越了 YOLO-Worldv2-S 的 \$3.5~A P.\$ 当迁移到 COCO 时,YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的增益,且训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。