• [论文翻译]BM25S:通过即时稀疏评分实现数量级加速的词汇搜索

    我们推出BM25S,这是一种基于Python语言的高效BM25实现,仅依赖Numpy1和Scipy2。通过索引期间主动计算BM25分数并将其存储为稀疏矩阵,BM25S相比最流行的Python框架实现了高达\$500\mathrm{x}\$的加速。与采用高度优化的Java实现的主流商业产品相比,该方案也实现了显著加速。此外,BM25S通过采用新颖的分数偏移方法将主动评分扩展到非稀疏变体,完整复现了Kamphuis等人(2020)提出的五种BM25变体实现。代码详见https://github.com/xhluca/bm25s
  • [论文翻译]Chain-of-Action: 基于大语言模型的可靠多模态问答

    我们提出了一种用于多模态和检索增强问答(Question Answering, QA)的行动链(Chain-of-Action, CoA)框架。与现有研究相比,CoA克服了当前QA应用的两大挑战:(i) 与实时或领域事实不符的虚假幻觉;(ii) 对组合信息推理能力较弱。我们的核心贡献是一种新颖的推理-检索机制,通过系统提示和预设计动作将复杂问题分解为推理链。在方法论上,我们提出了三种可适配不同领域的"即插即用"动作,用于从异构源检索实时信息。我们还提出了多参考可信度评分(Multi-Reference Faith Score, MRFS)来验证和解决答案中的冲突。实证方面,我们通过公开基准测试和Web3案例研究证明了CoA优于其他方法的能力。
  • [论文翻译]DRCT:让图像超分辨率远离信息瓶颈

    近年来,基于Vision Transformer的低级视觉任务方法取得了广泛成功。与基于CNN的模型不同,Transformer更擅长捕捉长距离依赖关系,能够利用非局部信息重建图像。在超分辨率领域,基于Swin-transformer的模型因其全局空间信息建模能力及促进不同窗口间信息交换的移位窗口注意力机制,已成为主流方法。许多研究者通过扩大感受野或设计精细网络来提升模型性能,取得了令人瞩目的成果。然而,我们观察到特征图强度在网络末端突然被抑制至较小值是普遍现象,这表明存在信息瓶颈和空间信息衰减,隐性地限制了模型潜力。为此,我们提出稠密残差连接Transformer (DRCT),旨在通过层间稠密残差连接缓解空间信息丢失、稳定信息流,从而释放模型潜力并规避信息瓶颈。实验结果表明,我们的方法在基准数据集上超越了现有最优方法,并在NTIRE-2024图像超分辨率 \$(x4)\$ 挑战赛中表现优异。源代码详见https://github.com/ming053l/DRCT
  • [论文翻译]这篇CVPR论文是计算机视觉基金会提供的开放获取版本。除本水印外,其内容与录用版本完全相同;最终出版版本的会议论文集可在IEEE Xplore获取。

    我们提出了一种新颖的多模态多任务网络及配套训练算法。该方法能够处理约12种不同模态的数据,包括图像、视频、音频、文本、深度、点云、时间序列、表格、图结构、X光、红外、惯性测量单元(IMU)和高光谱数据。该方案采用模态专用分词器、共享Transformer架构和交叉注意力机制,将不同模态数据映射到统一嵌入空间。通过为各模态中的不同任务配备专用任务头,实现了多模态与多任务场景的协同处理。我们提出了一种基于迭代模态切换的新型预训练策略来初始化网络,并设计了一种权衡所有模态联合训练与两两模态交替训练的训练算法。通过对12种模态的25个数据集进行全面评估,我们展示了最先进的性能表现,验证了所提架构、预训练策略和自适应多任务训练方法的有效性。
  • [智能分析]Dokploy的极简教程:从部署到监控的全面指南

    在当今快速发展的技术环境中,Dokploy 作为一个强大的部署工具,为开发者提供了从代码构建到应用上线的全流程解决方案。无论是个人项目还是企业级应用,Dokploy 都能通过其简洁的界面和丰富的功能,帮助开发者高效地完成部署任务。本文将深入探讨 Dokploy 的核心功能,包括如何通过 Github Actions 构建镜像、如何绑定域名进行安全访问,以及如何利用 Dokploy 的监控和清理功能来优化服务器性能。 通过本教程,您将了解到如何利用 Dokploy 的 Deployment Webhook U...
  • [论文翻译]基于博弈视角的无监督域自适应Patch-Mix Transformer

    近期有研究尝试利用视觉Transformer (ViT) 解决具有挑战性的无监督域适应 (UDA) 任务。这些方法通常采用ViT中的交叉注意力机制直接进行域对齐。然而,由于交叉注意力的性能高度依赖目标样本伪标签的质量,当域差异较大时其效果会显著下降。我们通过博弈论视角提出PMTrans模型来解决该问题,该模型通过中间域桥接源域和目标域。具体而言,我们提出名为PatchMix的新型ViT模块,该模块基于博弈论模型学习从两个域采样图像块,从而有效构建中间域(即概率分布)。通过学习混合源域和目标域的图像块来最大化交叉熵 (CE) ,同时在特征空间和标签空间利用两个半监督混合损失来最小化该熵值。由此,我们将UDA过程建模为包含特征提取器、分类器和PatchMix三个参与者的最小-最大CE博弈,以寻找纳什均衡。此外,我们利用ViT的注意力图根据重要性重新加权每个图像块的标签,从而获得更具域区分性的特征表示。在四个基准数据集上的大量实验表明,
  • [论文翻译]FACT: 联邦对抗交叉训练 (Federated Adversarial Cross Training)

    联邦学习 (Federated Learning, FL) 支持分布式模型开发以聚合多个机密数据源。客户端间的信息传递可能因分布差异(即非独立同分布数据)而受到影响。一个极具挑战性的场景是联邦模型需适应无法获取标注数据的目标客户端。我们提出联邦对抗交叉训练 (Federated Adversarial Cross Training, FACT),该方法利用源客户端间的隐式领域差异来识别目标领域的域偏移。在每轮联邦学习中,FACT交叉初始化一对源客户端以生成领域专用表征,随后将其作为直接对抗方来学习领域不变的数据表征。实验表明,FACT在三个主流多源单目标基准测试中优于当前最先进的联邦、非联邦和无源域适应模型,并在单源单目标实验中超越了最先进的非监督域适应 (Unsupervised Domain Adaptation, UDA) 模型。我们进一步研究了FACT在通信限制和参与客户端数量方面的表现。
  • [论文翻译]选择、标注与混合:面向部分域适应的判别性不变特征表示学习

    部分域适应(Partial Domain Adaptation)假设未知目标标签空间是源标签空间的子集,这一领域在计算机视觉中备受关注。尽管已有进展,现有方法仍面临三个关键问题:负迁移(negative transfer)、潜在空间缺乏判别性(discriminability)以及域不变性不足。为缓解这些问题,我们提出了一种新颖的"选择-标注-混合"(Select, Label, and Mix, SLM)框架,旨在学习具有判别性的域不变特征表示。首先,"选择"模块通过自动过滤异常源样本避免负迁移,同时实现跨域分布对齐;其次,"标注"模块利用标注源数据和生成的目标域伪标签迭代训练分类器,增强潜在空间的判别性;最后,"混合"模块结合域混合(mixup)正则化与前两个模块,探索跨域本质结构,构建适用于部分域适应的域不变潜在空间。在多个基准数据集上的实验表明,该框架显著优于现有最优方法。项目页面:https://cvir.github.io/projects/slm。
  • [论文翻译]通过压缩注意力匹配实现通用领域自适应

    通用域适应 (UniDA) 旨在无需任何标签集先验知识的情况下,将知识从源域迁移到目标域。其核心挑战在于如何判断目标样本是否属于共有类别。主流方法基于样本特征进行判断,过度强调全局信息而忽略了图像中最关键的局部对象,导致准确率受限。为解决该问题,我们提出通用注意力匹配 (UniAM) 框架,通过利用视觉 Transformer 中的自注意力机制捕捉关键对象信息。该框架引入创新的压缩注意力匹配 (CAM) 方法,通过压缩表征注意力来挖掘核心信息。此外,CAM 采用基于残差的度量机制来判定样本共有性。通过该度量机制,UniAM 实现了域级和类别级的共有特征对齐 (CFA) 与目标类别分离 (TCS)。值得注意的是,UniAM 是首个直接利用视觉 Transformer 注意力机制执行分类任务的方法。大量实验表明,UniAM 在多个基准数据集上超越了当前最先进方法。
  • [论文翻译]特征融合迁移能力感知Transformer在无监督域自适应中的应用

    无监督域适应 (Unsupervised Domain Adaptation, UDA) 旨在利用从带标签的源域学到的知识提升无标签目标域的性能。虽然卷积神经网络 (Convolutional Neural Networks, CNNs) 在以往的 UDA 方法中占主导地位,但近期研究表明视觉 Transformer (Vision Transformers, ViTs) 在该任务中具有潜力。本研究提出了一种新颖的特征融合迁移能力感知 Transformer (Feature Fusion Transfer ability Aware Transformer, FFTAT) 来提升 ViT 在 UDA 任务中的性能。我们的方法包含两项关键创新:首先,引入一个块判别器来评估图像块的迁移能力,生成迁移能力矩阵,并将该矩阵整合到自注意力机制中,使模型聚焦于可迁移的图像块;其次,提出一种特征融合技术,在潜在空间融合嵌入表示,使每个嵌入都能整合其他所有嵌入的信息,从而提升泛化能力。这两个组件协同工作以增强特征表示学习。在广泛使用的基准测试上的大量实验表明,我们的方法显著提升了 UDA 性能,达到了当前最优 (State-of-the-Art, SOTA) 水平。
  • [论文翻译]MTP: 通过多任务预训练推进遥感基础模型发展

    摘要—基础模型通过增强各类遥感(RS)图像解译任务重塑了该领域格局。预训练作为活跃研究方向,涵盖监督与自监督学习方法以有效初始化模型权重。然而,预训练模型迁移至下游任务时可能因图像分类或目标判别任务的形式化定义而产生任务差异。本研究探索面向遥感基础模型的多任务预训练(MTP)范式以解决该问题。基于共享编码器与任务专属解码器架构,我们在SAMRS数据集上开展涵盖语义分割、实例分割和旋转目标检测的多任务监督预训练。MTP支持参数量超3亿的卷积神经网络与Vision Transformer基础模型。预训练模型在场景分类、水平/旋转目标检测、语义分割及变化检测等下游任务上微调。跨14个数据集的实验表明,我们的模型在同等规模模型中具有优越性,并与更大规模的最先进模型性能相当,验证了MTP的有效性。代码与预训练模型将发布于https://github.com/ViTAE-Transformer/MTP。
  • [论文翻译]PromptKD: 视觉-语言模型的无监督提示蒸馏

    提示学习已成为增强视觉语言模型(VLM)如CLIP在特定领域下游任务中的一项重要技术。现有工作主要集中于设计各种提示学习形式,忽视了提示作为从更大教师模型中学习的有效蒸馏器的潜力。本文提出了一种无监督领域提示蒸馏框架,旨在通过使用未标注领域图像的提示驱动模仿,将大型教师模型的知识迁移到轻量级目标模型中。具体而言,我们的框架包含两个不同阶段。在初始阶段,我们使用领域(少样本)标签预训练一个大型CLIP教师模型。预训练完成后,我们利用CLIP特有的解耦模态特性,通过教师文本编码器预先计算并存储文本特征作为类别向量,仅需一次操作。在后续阶段,存储的类别向量在教师和学生图像编码器之间共享,用于计算预测对数。此外,我们通过KL散度对齐教师和学生模型的对数,促使学生图像编码器通过可学习提示生成与教师相似的概率分布。所提出的提示蒸馏过程消除了对标注数据的依赖,使算法能够利用领域内大量未标注图像。最终,训练良好的学生图像编码器和预先存储的文本特征(类别向量)被用于推理。据我们所知,我们是首个(1)为CLIP执行无监督领域特定提示驱动知识蒸馏,以及(2)建立文本特征作为教师和学生之间共享类别向量的实用预存储机制的研究。在11个数据集上的大量实验证明了我们方法的有效性。代码公开于https://github.com/
  • [论文翻译]StyleAdv: 面向跨域少样本学习的元风格对抗训练

    跨域少样本学习 (Cross-Domain Few-Shot Learning, CD-FSL) 是近期兴起的一项任务,旨在解决不同领域间的少样本学习问题。其核心目标是将源数据集上习得的先验知识迁移至新目标数据集。CD-FSL任务面临的主要挑战在于不同数据集间巨大的领域差异。关键的是,这种领域差异实际上源于视觉风格的变化,而wave-SAN [10]通过实验证明扩展源数据的风格分布有助于缓解该问题。然而,wave-SAN仅简单交换两张图像的风格。这种基础操作生成的风格仍属于源风格集的"真实"且"简单"范畴。为此,受基础对抗学习启发,我们提出了一种与模型无关的元风格对抗训练 (StyleAdv) 方法及新型风格对抗攻击方法。特别地,我们的风格攻击方法通过符号化风格梯度扰动原始风格,合成"虚拟"且"困难"的对抗风格用于模型训练。通过持续攻击风格并迫使模型识别这些具有挑战性的对抗风格,我们的模型逐步获得对视觉风格的鲁棒性,从而提升对新目标数据集的泛化能力。除典型的CNN骨干网络外,我们还将StyleAdv方法应用于大规模预训练视觉Transformer。在八个不同目标数据集上的大量实验验证了方法的有效性。无论是基于ResNet还是ViT,我们的方法均实现了CD-FSL领域的最新最优性能。代码已开源:https://github.com/lovelyqian/StyleAdv-CDFSL。
  • [论文翻译]贝叶斯提示学习用于图像-语言模型泛化

    基础图像-语言模型因其通过提示学习(prompt learning)高效适应下游任务而引发了广泛关注。提示学习将部分语言模型输入视为可训练参数,同时冻结其余部分,并优化经验风险最小化目标。然而,经验风险最小化已知存在分布偏移问题,这会损害模型对训练期间未见提示的泛化能力。通过利用贝叶斯方法的正则化能力,我们从贝叶斯角度构建提示学习框架,将其表述为变分推断问题。我们的方法规范了提示空间,减少对已见提示的过拟合,并提升对未见提示的泛化性能。 该框架通过概率化建模输入提示空间实现,将其视为先验分布,这使得我们的方案兼容无条件或图像条件型的提示学习方法。我们在15个基准测试中实证表明:贝叶斯提示学习能提供适当的提示空间覆盖,避免学习虚假特征,并利用可迁移的不变特征。这使得模型对未见提示(甚至跨数据集和跨领域)表现出更好的泛化能力。
  • [论文翻译]为单源域泛化中的验证和训练构建分布偏移

    单源域泛化旨在利用源域数据训练模型并部署到未知目标域。仅依赖源域数据带来两大挑战——如何训练具备泛化能力的模型,以及如何验证其泛化效果。传统基于训练分布的验证方法无法准确反映模型泛化能力,而直接使用测试分布验证则属于不当实践。本研究通过应用涵盖目标域潜在分布偏移的全面增强策略转换源域图像,构建独立验证集。实验表明,该方法在多种算法和数据集上均实现验证性能与测试性能的高度相关性。当用于算法选择或学习率调优时,所提验证方案相比标准验证分别带来15.4%和1.6%的相对准确率提升。
  • [论文翻译]增强遥感视觉-语言模型的零样本场景分类能力

    摘要—得益于广泛的预训练,遥感领域的视觉语言模型 (Vision-Language Models) 已展现出广阔的应用前景。然而,传统零样本场景分类方法仍将大幅图像分割为小块进行独立预测 (即归纳推理),这种忽略宝贵上下文信息的做法限制了模型性能。我们提出一种新方法:通过文本提示生成的初始预测和图像编码器提取的局部关联关系,以转导推理方式增强零样本能力。该方法无需监督且计算开销极小。在10个遥感数据集上采用最先进视觉语言模型的实验表明,其分类准确率较归纳式零样本方法有显著提升。源代码已开源:https://github.com/elkhouryk/RS-TransCLIP
  • [论文翻译]OmniVec2 - 基于Transformer的新型大规模多模态多任务学习网络

    我们提出了一种新颖的多模态多任务网络及相应的训练算法。该方法能够处理约12种不同模态的数据,包括图像、视频、音频、文本、深度、点云、时间序列、表格、图结构、X射线、红外、惯性测量单元(IMU)和高光谱数据。该方案采用模态专用分词器、共享Transformer架构和交叉注意力机制,将不同模态数据映射到统一的嵌入空间。通过为各模态中的不同任务配备专用任务头,实现了多模态与多任务场景的协同处理。我们提出了一种基于迭代模态切换的新型预训练策略来初始化网络,并设计了一种权衡所有模态联合训练与两两模态交替训练的训练算法。通过在12种模态的25个数据集上进行全面评估,我们展示了所提架构、预训练策略和适配多任务训练方法的先进性,实现了业界领先的性能表现。
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理