• [论文翻译]StarGAN:统一的多领域图像到图像转换生成对抗网络

    图 1: 通过迁移从RaFD数据集学到的知识,在CelebA数据集上实现的多领域图像到图像转换结果。第一列和第六列为输入图像,其余列是由StarGAN生成的图像。请注意,这些图像均由单一生成器网络生成,且愤怒、快乐、恐惧等面部表情标签来自RaFD数据集而非CelebA。
  • [论文翻译]基于研究论文的信息检索问答数据集

    学术论文的读者通常以回答特定问题为目标进行阅读。能够解答这些问题的问答系统可以大幅提升内容消化效率。然而构建此类工具需要能反映任务难度的数据,这种难度源于对论文多个部分主张的复杂推理。相比之下,现有信息检索型问答数据集通常只包含关于通用事实型信息的问题。为此我们推出QASPER数据集,包含针对1,585篇自然语言处理论文提出的5,049个问题。
  • [论文翻译]Pair-VPR: 基于位置感知预训练和对比配对分类的视觉位置识别方法(Vision Transformers)

    摘要—本文提出了一种新颖的视觉位置识别(VPR)联合训练方法,该方法同时学习全局描述符和用于重排序的图像对分类器。该分类器可预测给定图像对是否来自同一地点。网络仅由Vision Transformer组件构成,包括编码器和图像对分类器,两者均使用各自的类别token进行训练。现有VPR方法通常使用通用图像数据集(如ImageNet)的预训练权重初始化网络。本文提出了一种替代预训练策略,采用孪生掩码图像建模(Siamese Masked Image Modeling)作为预训练任务。我们提出从大型VPR数据集中进行位置感知图像采样的方法,以预训练专门针对VPR任务优化的视觉特征模型。通过在第二阶段训练中复用掩码图像建模的编码器和解码器权重,Pair-VPR在五个基准测试中实现了最先进的VPR性能。
  • [论文翻译]Cascaded Dual Vision Transformer 用于精确面部关键点检测

    面部关键点检测是计算机视觉中许多下游应用的基础问题。本文提出了一种基于视觉Transformer (Vision Transformer) 的新型面部关键点检测器,其包含两项独特设计:双视觉Transformer (D-ViT) 和长跳跃连接 (LSC)。基于特征图通道维度本质上是热图空间线性基的观察,我们提出通过学习这些线性基之间的互连关系,通过通道分割ViT来建模关键点间固有的几何关系。我们将这种通道分割ViT与标准视觉Transformer(即空间分割ViT)结合,形成双视觉Transformer以构建预测模块。同时建议采用长跳跃连接将底层图像特征传递至所有预测模块,从而避免有用信息被中间监督丢弃。我们在WFLW [45]、COFW [3] 和300W [34] 等广泛使用的基准数据集上进行了大量实验,结果表明我们的模型在所有三个基准测试中均优于之前的SOTA方法。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理