VirTex - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]VirTex: 从文本标注中学习视觉表征

许多视觉任务的实际做法是从预训练的视觉表征开始，这些表征通常通过在ImageNet上进行监督训练学习得到。最近的方法探索了无监督预训练，以扩展到大量未标注图像。相比之下，我们的目标是从更少的图像中学习高质量的视觉表征。为此，我们重新审视了监督预训练，并寻找基于分类预训练的数据高效替代方案。我们提出了VirTex——一种使用语义密集的标注来学习视觉表征的预训练方法。我们在COCO Captions上从头开始训练卷积网络，并将它们迁移到下游识别任务，包括图像分类、目标检测和实例分割。在所有任务中，尽管使用的图像数量减少了十倍，VirTex生成的特征与在ImageNet上学习到的特征（无论是监督还是无监督）相当或更优。

由卡汁发布于 2025-04-13 20:46:57 视觉任务VirTex无监督预训练阅读次数 875