[论文翻译]YOLOE: 实时视觉感知
目标检测与分割在计算机视觉应用中被广泛采用,然而传统的模型如 YOLO 系列虽然高效且准确,但受限于预定义类别,在开放场景中的适应性较差。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题,但由于高计算需求或部署复杂性,往往在性能与效率之间做出妥协。在本工作中,我们提出了 YOLOE,它将检测与分割整合到单一高效的模型中,支持多样化的开放提示机制,实现了实时“看到任何东西”。对于文本提示,我们提出了可重参数化的区域-文本对齐策略(RepRTA)。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入,并在零推理和迁移开销的情况下增强视觉-文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器(SAVPE)。它采用解耦的语义和激活分支,以最小的复杂度带来改进的视觉嵌入和准确性。对于无提示场景,我们引入了惰性区域-提示对比策略(LRPC)。它利用内置的大词汇量和专用嵌入来识别所有对象,避免了对昂贵语言模型的依赖。大量实验表明,YOLOE 在零样本性能和迁移能力方面表现出色,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 的训练成本减少和 \$I.4\times\$ 的推理加速,超越了 YOLO-Worldv2-S,提升了 \$3.5~A P.\$。在迁移到 COCO 时,YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 的基础上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的提升,训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。