• [论文翻译]VirTex: 从文本标注中学习视觉表征

    许多视觉任务的实际做法是从预训练的视觉表征开始,这些表征通常通过在ImageNet上进行监督训练学习得到。最近的方法探索了无监督预训练,以扩展到大量未标注图像。相比之下,我们的目标是从更少的图像中学习高质量的视觉表征。为此,我们重新审视了监督预训练,并寻找基于分类预训练的数据高效替代方案。我们提出了VirTex——一种使用语义密集的标注来学习视觉表征的预训练方法。我们在COCO Captions上从头开始训练卷积网络,并将它们迁移到下游识别任务,包括图像分类、目标检测和实例分割。在所有任务中,尽管使用的图像数量减少了十倍,VirTex生成的特征与在ImageNet上学习到的特征(无论是监督还是无监督)相当或更优。
  • [论文翻译]基于像素的生成式预训练 (Generative Pre-training from Pixels)

    受自然语言无监督表征学习进展的启发,我们探究类似模型能否学习有效的图像表征。我们训练了一个序列Transformer (Transformer) 进行像素自回归预测,且未引入2D输入结构的先验知识。尽管在无标签的低分辨率ImageNet数据上训练,我们发现GPT-2规模的模型通过线性探测 (linear probing) 、微调和低数据分类评估,仍能学习到强大的图像表征。在CIFAR-10上,线性探测达到96.3%准确率(超越有监督Wide ResNet),全微调达到99.0%准确率(媲美顶级有监督预训练模型)。在ImageNet与网络图像混合数据上训练的更大模型,其线性探测特征达到72.0% top-1准确率,与ImageNet自监督基准性能相当。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理