• [论文翻译]特征融合迁移能力感知Transformer在无监督域自适应中的应用

    无监督域适应 (UDA) 旨在利用从带标签的源域学到的知识提升无标签目标域的性能。虽然卷积神经网络 (CNN) 在以往的 UDA 方法中占据主导地位,但近期研究表明视觉 Transformer (ViT) 在该任务中具有潜力。本研究提出了一种新颖的特征融合迁移能力感知 Transformer (FFTAT) 来增强 ViT 在 UDA 任务中的表现。我们的方法包含两项关键创新:首先,引入一个 patch 判别器来评估 patch 的迁移能力,生成迁移能力矩阵。我们将该矩阵整合到自注意力机制中,引导模型关注可迁移的 patch。
  • [论文翻译]Layout Diffusion: 面向布局到图像生成的可控扩散模型

    现在请按照上面的要求开始翻译以下内容为简体中文:最近,扩散模型 (diffusion models) 在图像合成领域取得了巨大成功。然而,当涉及包含多个对象的复杂场景的布局到图像生成 (layout-to-image generation) 时,如何同时精确控制全局布局图和每个细节对象仍是一项具有挑战性的任务。本文提出了一种名为 Layout Diffusion 的扩散模型,其生成质量和控制能力均优于先前工作。为解决图像与布局的多模态融合难题,我们提出构建具有区域信息的结构化图像块 (structural image patch),并将分块图像转换为特殊布局形式,从而实现与常规布局的统一融合。此外,本文提出的布局融合模块 (Layout Fusion Module, LFM) 和对象感知交叉注意力 (Object-aware Cross Attention, OaCA) 能够建模多对象间关系,其设计具备对象感知和位置敏感性,可精确控制空间相关信息。
  • [论文翻译]Relation3D:增强点云实例分割中的关系建模

    3D实例分割旨在预测场景中的一组物体实例,将其表示为带有对应语义标签的二进制前景掩码。当前,基于Transformer的方法因其优雅的流程和卓越的预测性能受到越来越多的关注。然而,这些方法主要通过掩码注意力建模场景特征与查询特征之间的外部关系,缺乏对场景特征内部关系以及查询特征之间关系的有效建模。针对这些不足,我们提出Relation3D:增强点云实例分割的关系建模。
  • [论文翻译]利用局部几何特征和图结构优化基于图神经网络的3D点云处理

    摘要—我们在用于3D点云处理的图神经网络(GNN)通用框架中,提出了简单而有效的点表示方法和局部邻域图构建改进方案。首先,我们提出通过加入点的关键局部几何信息来增强顶点表示,随后使用多层感知机(MLP)进行非线性投影。其次,我们改进了3D点云的GNN图构建方法。
  • [论文翻译]UniTraj: 可扩展车辆轨迹预测的统一框架

    摘要:车辆轨迹预测日益依赖数据驱动的解决方案,但其跨数据领域的扩展能力以及更大规模数据集对泛化性能的影响仍缺乏深入研究。虽然这些问题可通过使用多个数据集来探究,但由于数据格式、地图分辨率和语义标注类型等差异,研究面临挑战。为此,我们提出UniTraj框架,该框架统一了多种数据集、模型和评估标准,为车辆轨迹预测领域带来新机遇。
  • [论文翻译]MCTrack: 自动驾驶的统一3D多目标跟踪框架

    本文介绍了一种新型3D多目标跟踪方法MCTrack,该方法在KITTI、nuScenes和Waymo数据集上均实现了最先进(SOTA)性能。针对现有跟踪范式在特定数据集表现优异但泛化能力不足的问题,MCTrack提供了统一解决方案。此外,我们统一了各数据集的感知结果格式(称为Base Version),使多目标跟踪(MOT)领域的研究者能专注于核心算法开发,无需承担繁重的数据预处理工作。
  • [论文翻译]UNICOM: 面向图像检索的通用紧凑表征学习方法

    现代图像检索方法通常依赖于微调预训练的编码器来提取图像级描述符。然而,最广泛使用的模型是在类别有限的ImageNet-1K上预训练的,因此预训练的特征表示不够通用,难以很好地泛化到多样化的开放世界类别。在本文中,我们首先利用CLIP模型提取的联合文本和视觉特征,将大规模LAION 400M数据集聚类为一百万个伪类别。由于标签粒度的混淆,自动聚类的数据集不可避免地包含严重的类间冲突。
  • [论文翻译]视觉领域自适应中的自集成方法

    本文探讨了自集成(self-ensembling)在视觉域适应问题中的应用。我们的技术源自时序集成(temporal ensembling)的均值教师变体(mean teacher variant) [29],该技术在半监督学习领域取得了最先进的成果。我们针对具有挑战性的域适应场景对其方法进行了若干改进,并评估了其有效性。我们的方法在各种基准测试中均取得了最先进的成果,包括我们在VISDA-2017视觉域适应挑战赛中的获胜方案。在小型图像基准测试中,我们的算法不仅优于现有技术,还可以达到接近监督式训练分类器的准确度。
  • [论文翻译]输入扰动降低扩散模型的曝光偏差

    去噪扩散概率模型 (Denoising Diffusion Probabilistic Models) 虽然因其长采样链导致高计算成本,但仍展现出卓越的生成质量。本文发现,长采样链还会引发误差累积现象,这与自回归文本生成中的曝光偏差问题类似。具体而言,我们注意到训练与测试之间存在差异:前者以真实样本为条件,而后者则依赖于先前生成的结果。为缓解此问题,我们提出了一种简单但有效的训练正则化方法,即通过扰动真实样本来模拟推理阶段的预测误差。
  • [论文翻译]迈向精确状态估计:融合运动动力学的卡尔曼滤波在3D多目标跟踪中的应用

    本研究针对3D多目标跟踪(MOT)中卡尔曼滤波器的状态估计精度不足及运动模型选择难题展开。现有方法普遍采用恒定运动模型进行目标状态估计,忽略了各物体独特的复杂运动特性,导致轨迹断裂和定位失准问题(尤其在遮挡情况下)。这些问题的核心在于当前卡尔曼滤波器框架无法适应物体运动动态变化。我们提出了一种融合运动动态的新型卡尔曼滤波器框架,使运动模型能根据目标运动变化自适应调整。
  • [论文翻译]卵巢癌免疫原性由一小部分祖组织驻留记忆T细胞决定

    癌症免疫治疗的一个长期目标是重振抗原特异性淋巴细胞,以促进其在肿瘤床的效应活性。虽然肿瘤会导致活化态和初始T细胞代谢瘫痪 (Cao et al., 2019; Song et al., 2018; Xia et al., 2017),但通过阻断肿瘤反应性淋巴细胞中抑制性免疫检查点 (Curiel et al., 2003) 的免疫疗法,近年来已显著改善了多种实体瘤的治疗效果 (Baumeister et al., 2016)。
  • [论文翻译]视觉空间推理

    空间关系是人类认知的基本组成部分。然而,它们在自然语言中以多种方式表达,先前的研究表明,当前的视觉与语言模型 (VLM) 难以捕捉关系信息。本文提出了视觉空间推理 (VSR) 数据集,包含超过1万组自然文本-图像对,涵盖66种英语空间关系(例如:under, in front of, facing)。尽管采用看似简单的标注格式,我们展示了该数据集如何涵盖具有挑战性的语言现象,例如变化的参照系。
  • [论文翻译]MAFiD: 基于移动平均的融合解码器用于表格和文本数据的问答

    基于Transformer的表格和文本问答(QA)模型面临由表格和文本元素组成的"长"混合序列,导致长距离推理问题。为处理长距离推理,我们广泛采用解码器融合(FiD)和指数移动平均(EMA),提出移动平均增强的解码器融合(MAFiD)。以FiD为骨干架构,MAFiD结合了多级推理:同质数据的独立编码、单行和多行异质推理,通过门控交叉注意力层有效聚合三种推理产生的表征。在HybridQA上的实验结果表明,MAFiD在盲测集上将精确匹配(EM)和F1分数分别提升1.1和1.7,实现了最先进性能。
  • [论文翻译]ClickDiff: 通过点击诱导语义接触图实现基于扩散模型的可控抓取生成

    抓握生成旨在创建与指定物体的复杂手部交互。传统的手部生成方法主要关注场景约束下的可见性和多样性,往往忽略了接触等细粒度的手物交互,导致生成不准确且不符合预期的抓握。为解决这些挑战,我们提出可控抓握生成任务,并推出ClickDiff——一个利用细粒度语义接触图(SCM)的可控条件生成模型。该方法在合成交互式抓握时,能通过用户指定或算法预测的语义接触图实现精准控制。具体而言,为充分利用接触监督约束并精确建模手部复杂物理结构,我们提出双生成框架:语义条件模块基于细粒度接触信息生成合理接触图,而接触条件模块则结合接触图与物体点云生成逼真抓握。我们制定了适用于可控抓握生成的评估标准。在GRAB和ARCTIC数据集上的单手/双手生成实验验证了方法的有效性,证明ClickDiff即使面对未见物体仍具备优异性能与鲁棒性。代码已开源:https://github.com/adventurer-w/ClickDiff。
  • [论文翻译]BABEL: 身体、动作与行为英语标注库

    理解人类动作的语义——即动作的内容、方式和原因——是一个重要课题,需要带有语义标注的人类动作数据集。现有数据集采用两种方法之一:大规模视频数据集包含大量动作标签但缺乏真实3D人体运动数据;而动作捕捉(mocap)数据集虽具有精确身体运动数据,却仅限于少量动作类型。为此,我们推出BABEL数据集,该数据集通过语言标签描述动作捕捉序列中的行为。BABEL标注了来自AMASS的约43小时动作捕捉序列,提供两个抽象层级的动作标签:描述序列整体行为的序列级标签,以及描述序列每帧所有动作的帧级标签。每个帧标签都与动作捕捉序列中对应动作的持续时间精确对齐,且允许多个动作重叠出现。BABEL包含超过28k个序列标签和63k个帧标签,涵盖250余种独特动作类别。这些标签可应用于动作识别、时序动作定位、运动合成等任务。为验证BABEL作为基准数据集的价值,我们评估了3D动作识别模型的性能,证明该数据集提出了适用于真实场景的学习挑战,可作为3D动作识别研究进展的有效基准。该数据集、基线方法及评估代码已开源,支持学术研究用途:https://babel.is.tue.mpg.de/。
  • [论文翻译]基于协方差表示与时序剪枝的子空间聚类动作识别方法

    摘要—本文研究了基于骨骼数据的人类动作识别问题,该问题定义为对修剪后序列中显示的动作进行分类。尽管目前针对该应用的最先进方法均为监督式学习,但本文探索了一个更具挑战性的方向:通过无监督学习解决该问题。为此,我们提出了一种新颖的子空间聚类方法,该方法利用协方差矩阵增强动作的判别性,并提出时间戳剪枝方法以更好地处理数据的时间维度。通过大量实验验证,我们表明该计算流程不仅超越了现有无监督方法,与监督方法相比也能取得优越性能。
  • [论文翻译]HAMLET:一种基于分层多模态注意力机制的人类活动识别算法

    摘要— 为了与人类流畅协作,机器人需要具备准确识别人体活动的能力。尽管现代机器人配备了多种传感器,但由于多模态数据融合的困难,稳健的人体活动识别(HAR)对机器人而言仍是具有挑战性的任务。为解决这些难题,本研究提出了一种基于深度神经网络的多模态HAR算法HAMLET。HAMLET采用分层架构,其底层通过多头自注意力机制从单模态数据中编码时空特征。我们开发了一种新颖的多模态注意力机制,用于解耦并融合显著的单模态特征,从而在上层计算多模态特征。最终,多模态特征被输入全连接神经网络以识别人体活动。我们通过在三个人体活动数据集上与多种先进活动识别算法进行性能对比来评估本算法。
  • [论文翻译]SA-DVAE: 通过解耦变分自编码器改进零样本骨骼动作识别

    然而,据我们所知,现有方法均假设骨架序列组已被完整捕捉且高度一致,因此其核心思路集中于如何从语义层面优化文本表示。通过细致分析NTU RGB+D和PKU-MMD这两个广泛使用的基准数据集中的源视频,我们发现该假设存在疑问。我们观察到,对于某些动作标签,摄像机位姿与演员动作差异确实会引入显著噪声。针对这一现象,我们探索了有效的解决方案。受现有零样本学习方法[3](证明语义无关特征可与语义相关特征分离)的启发,我们提出了基于骨架的动作识别模型SA-DVAE。如图1所示,SA-DVAE通过将骨架潜在特征空间解耦为两个组件来解决泛化问题:语义相关项与语义无关项。该设计使模型能仅聚焦语义相关项进行动作识别,从而学习更具鲁棒性和泛化能力的视觉嵌入。此外,SA-DVAE采用学习型总相关性惩罚机制,通过对抗判别器估算解耦潜在特征间总相关性下界,强制两项特征保持独立性并最小化表征间的共享信息。
  • [论文翻译]包含51种类型多样语言的百万示例多语言自然语言理解数据集

    我们发布了MASSIVE数据集——面向槽填充、意图分类和虚拟助手评估的多语言亚马逊SLURP资源包。该数据集包含100万条真实场景下的平行标注虚拟助手话语,涵盖51种语言、18个领域、60种意图和55个槽位。MASSIVE通过聘请专业翻译人员将仅限英语的SLURP数据集本地化为来自29个语系的50种类型多样的语言。我们还展示了基于XLM-R和mT5的建模结果,包括精确匹配准确率、意图分类准确率和槽填充F1分数。我们已公开数据集、建模代码和模型。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理