• [论文翻译]CoCa: 对比式字幕生成器作为图文基础模型

    探索大规模预训练基础模型在计算机视觉领域具有重要意义,因为这些模型能够快速迁移至多种下游任务。本文提出对比式描述生成器(CoCa),采用极简设计联合预训练图像-文本编码器-解码器基础模型,通过对比损失和描述生成损失同时涵盖CLIP等对比方法与SimVLM等生成方法的模型能力。与所有解码器层均关注编码器输出的标准编码器-解码器Transformer不同,CoCa在前半部分解码器层省略交叉注意力以编码单模态文本表示,后半部分级联的解码器层则通过交叉注意力处理图像编码器的多模态图像-文本表示。
  • [论文翻译]SegFormer 3D: 一种高效的3D医学图像分割Transformer

    基于视觉Transformer (ViT) 架构的采用标志着3D医学图像(MI)分割领域的重大进步,通过增强全局上下文理解能力超越了传统卷积神经网络(CNN)模型。尽管这一范式转变显著提升了3D分割性能,但最先进的架构需要极其庞大复杂的结构以及大规模计算资源进行训练和部署。此外,在医学影像常见的有限数据集场景下,更大规模的模型可能在模型泛化性和收敛性方面带来挑战。为应对这些问题并证明轻量级模型在3D医学影像中的重要研究价值,我们提出了SegFormer3D——一种在多层次体素特征上计算注意力的分层Transformer。该模型摒弃复杂解码器结构,采用全MLP解码器来聚合局部与全局注意力特征,从而生成高精度分割掩码。这种内存高效的Transformer通过紧凑设计保留了更大规模模型的性能特征。相比当前最优(SOTA)模型,SegFormer3D以参数减少33倍、GFLOPS降低13倍的显著优势,推动了3D医学图像分割的深度学习平民化。我们在Synapse、BRaTs和ACDC三个广泛使用的数据集上对SegFormer3D进行基准测试,均取得具有竞争力的结果。代码:https://github.com/OSUPCVLab/SegFormer3D.git
  • [论文翻译]基于角点的区域提议检测多方向文本

    以往的场景文本检测方法通常依赖于手动定义的滑动窗口。本研究提出了一种直观的两阶段基于区域的方法,无需任何关于文本形状的先验知识即可检测多方向文本。在第一阶段,我们通过检测并连接角点而非滑动一组预设锚框来估计文本实例的可能位置。四边形候选框具有几何自适应性,使本方法能够应对各种文本长宽比和方向。在第二阶段,我们设计了一种名为双RoI池化 (Dual-RoI Pooling) 的新型池化层,该层将数据增强嵌入区域子网络中,从而对这些候选框进行更鲁棒的分类和回归。公开基准测试的实验结果证实,所提方法能够达到与最先进方法相当的性能。代码公开于 https://github.com/xhzdeng/crpn。
  • [论文翻译]12合1:多任务视觉与语言表征学习

    视觉与语言研究大多聚焦于少量但多样化的独立任务及其配套数据集,这些任务通常被孤立研究。然而,成功完成这些任务所需的视觉基础语言理解技能存在显著重叠。本研究通过构建大规模多任务训练体系,探索视觉与语言任务间的关联性。我们的方法最终在四大类任务(视觉问答、基于描述的图像检索、指代表达式定位和多模态验证)的12个数据集上实现了单一模型统一。与独立训练的单任务模型相比,该模型将参数量从约30亿缩减至2.7亿,同时平均任务性能提升2.05分。我们利用该多任务框架深入分析联合训练多样化任务的效果,并证明基于统一多任务模型微调特定任务模型可带来额外性能提升,达到或超越当前最优水平。
  • [论文翻译]FOCUS:迈向通用前景分割

    前景分割是计算机视觉中的基础任务,涵盖多种细分任务。先前研究通常为每个任务设计特定架构,导致缺乏统一性。此外,这些方法主要关注前景对象识别,未能有效区分前景与背景。本文重点探讨背景的重要性及其与前景的关系,提出FOCUS(Foreground ObjeCts Universal Segmentation)框架,可处理多种前景任务。我们利用物体边缘信息构建多尺度语义网络以增强图像特征。为实现边界感知分割,提出一种新型蒸馏方法,结合对比学习策略在多模态特征空间中优化预测掩码。我们在5类任务的13个数据集上开展大量实验,结果表明FOCUS在多数指标上持续优于当前最先进的专用模型。
  • [论文翻译]通过联合卷积自编码器嵌入和相对熵最小化实现深度聚类

    图像聚类是计算机视觉最重要的应用之一,已在文献中被广泛研究。然而,当前聚类方法在处理大规模高维数据时普遍存在效率和可扩展性不足的问题。本文提出了一种称为深度嵌入正则化聚类(DEPICT)的新模型,它能高效地将数据映射到判别性嵌入子空间并精确预测聚类分配。DEPICT通常由堆叠在多层卷积自编码器上的多项逻辑回归函数构成。我们通过相对熵(KL散度)最小化定义聚类目标函数,并以聚类分配频率的先验分布作为正则项,进而推导出交替优化策略来更新参数并估计聚类分配。此外,我们在自编码器中采用重构损失函数作为数据依赖的正则化项,以防止深度嵌入函数过拟合。为了获得端到端优化的优势并消除分层预训练的必要性,我们引入联合学习框架来同步最小化统一的聚类与重构损失函数,并同时训练所有网络层。实验结果表明,在现实世界无标签数据可供超参数调优的聚类任务中,DEPICT具有优越性能和更快的运行速度。
  • [论文翻译]YOLOE: 实时视觉感知

    目标检测和分割在计算机视觉应用中广泛使用,然而像 YOLO 系列这样的传统模型虽然高效且准确,但受限于预定义的类别,阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题,但由于高计算需求或部署复杂性,往往在性能和效率之间做出妥协。在本工作中,我们引入了 YOLOE,它在单一高效模型中集成了多种开放提示机制下的检测和分割,实现了实时感知任何事物。对于文本提示,我们提出了可重参数化的区域-文本对齐 (RepRTA) 策略。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入,并以零推理和迁移开销增强视觉-文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器 (SAVPE)。它采用解耦的语义和激活分支,以最小的复杂性带来改进的视觉嵌入和准确性。对于无提示场景,我们引入了惰性区域-提示对比 (LRPC) 策略。它利用内置的大词汇表和专用嵌入来识别所有对象,避免了对昂贵语言模型的依赖。大量实验表明,YOLOE 在零样本性能和迁移能力方面表现出色,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 更少的训练成本和 \$I.4\times\$ 的推理速度提升,超越了 YOLO-Worldv2-S 的 \$3.5~A P.\$ 当迁移到 COCO 时,YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的增益,且训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。
  • [论文翻译]机器视觉上基于骨架的方法:调查报告

    最近,基于骨架的方法在骨骼识别中取得了巨大成功的基础上取得了快速进展。大量研究侧重于根据骨架特征解决特定问题。在几个对象检测的概述中提到了一些基于骨架的方法作为非必要部分。尽管如此,对骨骼的近端方法没有任何彻底的分析。除了理论构建方面,我们不描述关于概述基于骨架的方法,而不是描述关于应用领域的基于骨架的方法,并尽可能地全面地给予任务。本文有利于进一步了解基于骨架的应用和处理特定问题。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理