• [论文翻译]采用高分辨率计算以获得更佳可视化效果

    Transformer 近期已成为学习视觉表征的强大工具。本文我们识别并描述了监督式与自监督式 ViT 网络特征图中的伪影现象。这些伪影表现为推理过程中主要出现在图像低信息量背景区域的高范数 token,它们被重新用于内部计算。我们提出了一种简单有效的解决方案:通过在 Vision Transformer 的输入序列中添加辅助 token 来承担该职能。研究表明,该方案能完全解决监督式和自监督式模型的这一问题,为自监督视觉模型在密集视觉预测任务上树立了新标杆,使目标发现方法能适配更大模型,最重要的是能为下游视觉处理生成更平滑的特征图和注意力图。
  • [论文翻译]重访牛津与巴黎:大规模图像检索基准测试

    本文探讨了标准且广泛使用的Oxford 5k和Paris 6k数据集在图像检索基准测试中存在的问题。重点关注了标注错误、数据集规模和挑战级别:我们为两个数据集重新创建了标注,并特别关注真实标注的可靠性。引入了三种不同难度的新评估协议,这些协议支持包括使用数据集预处理阶段在内的各类方法进行公平比较。针对每个数据集新增了15个具有挑战性的查询项。最后,我们还筛选出一组包含100万张经过半自动清理的困难干扰图像。
  • [论文翻译]全局特征足以胜任图像检索与重排序任务

    图像检索系统传统上采用两阶段范式,即利用全局特征进行初始检索,再通过局部特征进行重排序。然而,由于重排序阶段局部特征匹配带来的巨大存储和计算开销,这种方法的可扩展性往往受限。本文提出Super Global,一种仅使用全局特征完成两阶段任务的新方法,在保持精度的同时提升效率。该方法对检索系统进行关键改进,重点优化全局特征提取与重排序流程:在提取阶段,我们发现广泛使用的ArcFace损失函数与广义均值(GeM)池化方法结合时性能欠佳,并提出多个新模块来改进GeM池化;在重排序阶段,我们引入仅需少量图像参与特征优化的全局特征更新机制,显著提升计算和内存效率。实验表明,本方法在标准基准测试中取得显著提升——在Revisited Oxford\$^{\circ}+\$1M Hard数据集上,单阶段结果提高7.1%,两阶段结果提升3.7%的同时实现64,865倍加速;我们的两阶段系统以16.3%的优势超越当前最优单阶段方案,为高性能图像检索系统提供了兼具可扩展性、精确性和低时延的解决方案。代码:https://github.com/ShihaoShao-GH/SuperGlobal。
  • [论文翻译]基于掩码序列自编码器自预训练和定制化PolyLoss微调的鲁棒车道线检测

    摘要—车道检测对车辆定位至关重要,是自动驾驶及众多智能高级驾驶辅助系统的基础。现有基于视觉的车道检测方法未能充分利用有价值的特征和聚合上下文信息,特别是连续帧中车道线与图像其他区域的相互关系。为填补这一研究空白并提升检测性能,本文提出一种结合掩码序列自编码器自预训练与定制化PolyLoss微调的端到端神经网络流程,采用多帧连续图像作为输入。通过掩码序列自编码器以随机掩码图像像素重建为目标进行模型预训练,在微调分割阶段将预训练权重迁移至车道检测任务,采用定制化PolyLoss通过反向传播机制计算输出结果与标注真值间的加权误差。
  • [论文翻译]鲁棒行人搜索预训练的交换路径网络

    在行人搜索任务中,我们通过检测和排序图库场景中与查询人物图像的匹配项来实现目标。大多数行人搜索模型采用特征提取主干网络,后接独立的检测和重识别头部模块。尽管视觉主干网络的预训练方法已较为成熟,但针对行人搜索任务额外模块的预训练此前尚未得到研究。本文提出了首个端到端行人搜索预训练框架,将方法分为以目标为中心和以查询为中心两种范式,并证明以查询为中心的框架对标签噪声具有鲁棒性,仅需弱标注的人物边界框即可训练。此外,我们提出名为交换路径网络 (SPNet) 的新型模型,该模型同时实现以查询为中心和以目标为中心的训练目标,并能保持权重不变的情况下切换两种模式。实验表明:SPNet采用以查询为中心的预训练后接以目标为中心的微调策略,在PRW和CUHK-SYSU基准测试中分别取得61.2%和96.4%的mAP值,达到当前最优水平。相比近期仅针对主干网络的预训练方案,我们的方法在行人搜索预训练中展现出更高效率、更强效果及更优鲁棒性。
  • [论文翻译]Direct3D-S2:基于空间稀疏注意力 (Spatial Sparse Attention) 的十亿级3D生成简易方案

    近年来,基于隐式潜在表征的大规模3D生成模型取得了显著进展。这些方法利用神经场进行形状表征,得益于紧凑的潜在编码和可扩展的生成能力。例如,3D Shape2VecSet [47] 开创性地使用变分自编码器 (VAE) [14] 将3D形状编码为潜在向量集,这些向量可解码为神经SDF或占用场,并通过Marching Cubes [24] 进行渲染。随后通过扩散过程对该潜在向量集建模以生成多样化的3D形状。CLAY [49] 采用扩散Transformer (DiT) [30] 扩展了这一流程,而TripoSG [18] 则通过修正流Transformer和混合监督进一步提升了保真度。然而,基于隐式潜在的方法通常依赖具有非对称3D表征的VAE,导致训练效率较低,通常需要数百个GPU。
  • [论文翻译]低样本异质人脸识别的双重变分生成

    异构人脸识别 (Heterogeneous Face Recognition, HFR) 由于存在较大域差异且缺乏异构数据而成为一个具有挑战性的问题。本文将HFR视为双重生成问题,提出了一种新颖的双重变分生成 (Dual Variation al Generation, DVG) 框架。该框架通过从噪声中生成具有相同身份的大规模成对异构图像,以减小HFR的域差异。具体而言,我们首先引入双重变分自编码器来表示成对异构图像的联合分布。然后,为了确保生成的成对异构图像的身份一致性,我们在潜在空间施加分布对齐约束,并在图像空间施加成对身份保持约束。此外,HFR网络通过约束生成的成对异构图像之间的特征距离来减小域差异。在四个HFR数据库上的大量实验表明,我们的方法能显著提升当前最优性能。相关代码已开源:https://github.com/BradyFU/DVG。
  • [论文翻译]动态多任务学习在人脸识别与表情分析中的应用

    得益于深度多任务网络中多任务的联合学习,许多应用相较于单任务学习展现出了优异的性能。然而,多任务学习框架的性能高度依赖于各任务的相对权重。如何分配每个任务的权重是多任务学习中的关键问题。本文摒弃了耗时费力的人工权重调参方式,提出了一种根据任务训练难度动态调整权重的算法。具体而言,该方法无需引入超参数,其简洁结构使得其他多任务深度学习网络能轻松实现或复现。我们基于深度多任务学习卷积神经网络(Conventional Neural Networks, CNNs),通过单张输入图像同时进行人脸识别与面部表情识别的实验验证了该方法的有效性。理论分析与实验结果均表明,所提出的动态多任务学习方法具有显著优势。与当前最先进的单任务学习方法相比,这种动态权重多任务学习机制在不同任务上均实现了性能提升。[1]
  • [论文翻译]VISUALBERT: 一种简单高效的视觉与语言基线模型

    结合视觉与自然语言的任务为评估视觉系统的推理能力提供了丰富的测试平台。这些任务不仅限于识别图像中存在哪些物体 (Russakovsky et al., 2015; Lin et al., 2014),还包括图像描述生成 (Chen et al., 2015)、视觉问答 (Antol et al., 2015) 和视觉推理 (Suhr et al., 2019; Zellers et al., 2019) 等,它们挑战系统去理解图像中广泛的细节语义,包括物体、属性、部件、空间关系、动作与意图,以及所有这些概念如何通过自然语言进行指代和关联。
  • [论文翻译]FG-CLIP: 细粒度视觉与文本对齐

    对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP) 在图文检索和零样本分类等多模态任务中表现出色,但由于其关注粗粒度的简短描述,在细粒度理解方面存在不足。为此,我们提出细粒度CLIP (Fine-Grained CLIP, FGCLIP),通过三项关键创新提升细粒度理解能力。首先,我们利用大语言模型生成16亿条长描述-图像对,以捕捉全局语义细节。其次,构建包含1200万张图像和4000万个与详细描述对齐的区域特定边界框的高质量数据集,确保精确且上下文丰富的表征。第三,引入1000万个困难细粒度负样本,提升模型区分细微语义差异的能力。通过整合高质量区域标注与困难负样本,我们构建了名为FineHARD的综合数据集,并针对这些数据精心设计了相应训练方法。大量实验表明,FG-CLIP在细粒度理解、开放词汇目标检测、图文检索及通用多模态基准测试等下游任务中均优于原始CLIP及其他先进方法。这些结果印证了FG-CLIP在捕捉图像细粒度细节和提升整体模型性能方面的有效性。数据、代码和模型已开源:https://github.com/360CVGroup/FG-CLIP。
  • [论文翻译]Face Forensics++: 学习检测被篡改的人脸图像

    合成图像生成与处理技术的快速发展已到了引发社会重大关切的阶段。往轻了说,这会削弱人们对数字内容的信任;往重了想,它可能通过传播虚假信息或假新闻造成更深层次的危害。本文研究了当前最先进的图像处理技术的逼真程度,以及通过自动化手段或人工方式检测这些篡改图像的难度。
  • [论文翻译]高光谱MAE:基于傅里叶编码双分支掩码自编码器的高光谱图像分类模型

    摘要—高光谱图像提供了丰富的光谱细节,但由于其在空间和光谱维度上的高复杂性,也带来了独特的挑战。为此,我们提出了高光谱MAE (Hyper spectral MAE),这是一种基于Transformer的高光谱数据基础模型,其特点是在预训练过程中采用双重掩码策略,随机遮挡50%的空间块和50%的光谱波段。这迫使模型通过重建两个维度上缺失的信息来学习有意义的表征。我们引入了一种基于可学习谐波傅里叶分量的光谱波长位置嵌入,以编码每个光谱波段的身份,确保模型对光谱顺序和间距敏感。重建目标采用了均方误差(MSE)和光谱角制图(SAM)相结合的复合损失,以平衡像素级精度和光谱形状保真度。
  • [论文翻译]基于风格的全局外观流虚拟试穿

    基于图像的虚拟试穿旨在将店内服装贴合到穿衣人物图像上。实现这一目标的关键步骤是服装变形 (garment warping),即在空间上将目标服装与人物图像中对应的身体部位对齐。现有方法通常采用局部外观流估计模型,因此本质上难以处理复杂身体姿态/遮挡以及人物与服装图像间的大幅错位问题 (见图 1)。为突破这一局限,本文提出了一种新颖的全局外观流估计模型。我们首次采用基于 StyleGAN 的架构进行外观流估计,通过全局风格向量编码全图上下文信息来应对上述挑战。为使 StyleGAN 流生成器更关注局部服装形变,还引入了流优化模块来添加局部上下文。在主流虚拟试穿基准测试中,本方法取得了最先进的性能表现,尤其适用于"真实场景"下参考图像为全身像导致与服装图像大幅错位的应用场景 (图 1 顶部)。代码已开源:https://github.com/SenHe/Flow-Style-VTON。
  • [论文翻译]Pix2Pose: 基于像素级坐标回归的物体6D姿态估计

    仅使用RGB图像估计物体的6D姿态仍面临遮挡和对称性等问题的挑战。在缺乏专业知识或专业扫描设备的情况下,构建具有精确纹理的3D模型也十分困难。为解决这些问题,我们提出了一种新颖的姿态估计方法Pix2Pose,该方法无需纹理模型即可预测每个物体像素的3D坐标。我们设计了自动编码器架构来估计每像素的3D坐标和预期误差,这些逐像素预测在多阶段流程中形成2D-3D对应关系,通过RANSAC迭代的PnP算法直接计算姿态。通过利用生成对抗训练的最新成果精确恢复被遮挡部分,我们的方法对遮挡具有鲁棒性。此外,针对对称物体提出了新型损失函数transformer loss,通过将预测引导至最接近的对称姿态来处理对称性问题。在包含对称和遮挡物体的三个不同基准数据集上的评估表明,我们的方法仅使用RGB图像就超越了现有技术水平。
  • [论文翻译]深度户外光照估计

    我们提出了一种基于CNN(卷积神经网络)的技术,用于从单张低动态范围图像中估算高动态范围的户外光照。为了训练CNN,我们利用了一个大型户外全景图数据集。通过将低维物理基础的户外光照模型拟合到这些全景图的天空部分,我们得到了一组紧凑的参数(包括太阳位置、大气条件和相机参数)。我们从全景图中提取有限视场的图像,并利用大量输入图像-输出光照参数对来训练CNN。给定测试图像时,该网络可用于推断光照参数,进而重建户外光照环境贴图。我们证明,该方法能够恢复合理的光照条件,并实现从单张图像中进行照片级真实感的虚拟物体插入。对全景图数据集和捕获的HDR环境贴图进行的广泛评估表明,我们的技术显著优于该问题的先前解决方案。
  • [论文翻译]SwapNet: 基于图像的服装迁移

    摘要。我们提出Swapnet框架,用于在任意身体姿态、形状和着装的真人图像间实现服装迁移。服装迁移是一项具有挑战性的任务,需要:(i) 从身体姿态和形状中解耦服装特征;(ii) 在新身体上实现服装纹理的真实合成。我们提出一种神经网络架构,通过两个任务专用子网络分别解决这些子问题。由于获取同一服装在不同身体上成对图像的难度较大,我们提出一种新颖的弱监督方法,通过数据增强从单张图像生成训练对。我们首次实现了非约束图像中完全自动化的服装迁移,而无需解决复杂的3D重建问题。通过多样化的迁移结果展示,我们突显了相较于传统图像到图像和类比流程的优势。
  • [论文翻译]TMCIR: Token Merge提升组合图像检索

    为解决这一挑战,我们提出TMCIR框架,通过两项关键创新推动组合图像检索发展:1) 意图感知跨模态对齐。我们首先使用扩散模型根据参考图像和文本描述合成的意图反映伪目标图像,以对比学习方式微调CLIP编码器。这一步骤增强了文本编码器捕捉文本描述中细微意图的能力。2) 自适应Token融合。我们通过将自适应Token融合特征与目标图像进行对比,进一步以对比学习方式微调所有编码器。该机制在对比学习流程中动态平衡视觉与文本表示,优化检索所需的组合特征。在Fashion-IQ和CIRR数据集上的大量实验表明,TMCIR显著优于现有最优方法,尤其在捕捉用户细微意图方面表现突出。
  • [论文翻译]图像检索中图文查询的组合学习

    本文研究基于多模态(图像文本)查询从数据库中检索图像的问题。具体而言,查询文本提示对查询图像进行某些修改,任务则是检索具有所需修改的图像。例如,电子商务平台用户想购买一件与她朋友裙子相似但需改为白色并配腰带款的连衣裙。此时,我们希望算法能检索出对查询裙子进行所需修改后的若干款式。我们提出基于自动编码器的模型ComposeAE,通过学习图像和文本查询的组合来检索图像。采用深度度量学习方法,学习使源图像与文本查询的组合更接近目标图像的度量标准。同时提出优化问题的旋转对称约束。我们的方法在三个基准数据集(MIT-States、Fashion 200k和Fashion IQ)上优于当前最先进的TIRG[23]方法。为确保公平比较,我们通过增强TIRG方法引入强基线。为保障结果可复现性,代码已开源:https://github.com/ecom-research/ComposeAE。
  • [论文翻译]基于高阶结构的中层特征学习的可见光-红外行人重识别

    可见光-红外行人重识别(VI-ReID)旨在检索由可见光(VIS)和红外(IR)摄像头捕获的同一行人图像。现有VI-ReID方法在忽略特征高阶结构信息的同时,由于VIS与IR图像间较大的模态差异,较难学习到合理的共同特征空间。针对上述问题,我们提出了一种基于高阶结构的中间特征学习网络(HOS-Net)。具体而言,我们首先采用短长程特征提取(SLE)模块来有效利用短程和长程特征。然后提出基于白化超图网络的高阶结构学习(HSL)模块,成功建模行人图像各局部特征间的高阶关系,极大缓解了模型坍塌问题并增强了特征表示能力。最后开发了共同特征空间学习(CFL)模块,通过对齐不同模态和范围的特征生成中间特征,进而学习判别性合理的共同特征空间。特别提出模态-范围身份中心对比(MRIC)损失函数,缩小VIS、IR与中间特征间的距离,平滑训练过程。在SYSU-MM01、RegDB和LLCM数据集上的大量实验表明,HOS-Net取得了最先进的性能。代码已开源在https://github.com/Julaucoeng/HOS-Net。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理