[论文翻译]基于生成式Transformer的人类疾病自然史学习 近期人工智能 (AI) 的发展可能有助于解决多病建模中一些难以克服的方法学局限性。除了诊断数量庞大之外,这些挑战还包括对既往事件间时间依赖性的建模、整合预后相关的多样化数据以及预测的统计校准。大语言模型 (LLM) ——作为AI的一个分支领域,支撑了诸如ChatGPT等聊天机器人——将语言建模为词片段 (token) 的序列。新文本基于所有前文内容逐token生成。 由 icodebase发布于 6天前 疾病预测 阅读次数 60
[论文翻译]特征融合迁移能力感知Transformer在无监督域自适应中的应用 无监督域适应 (UDA) 旨在利用从带标签的源域学到的知识提升无标签目标域的性能。虽然卷积神经网络 (CNN) 在以往的 UDA 方法中占据主导地位,但近期研究表明视觉 Transformer (ViT) 在该任务中具有潜力。本研究提出了一种新颖的特征融合迁移能力感知 Transformer (FFTAT) 来增强 ViT 在 UDA 任务中的表现。我们的方法包含两项关键创新:首先,引入一个 patch 判别器来评估 patch 的迁移能力,生成迁移能力矩阵。我们将该矩阵整合到自注意力机制中,引导模型关注可迁移的 patch。 由 shadow发布于 2025-07-15 21:17:43 数据集Transformer层Office-Home数据集 阅读次数 300
[论文翻译]Layout Diffusion: 面向布局到图像生成的可控扩散模型 现在请按照上面的要求开始翻译以下内容为简体中文:最近,扩散模型 (diffusion models) 在图像合成领域取得了巨大成功。然而,当涉及包含多个对象的复杂场景的布局到图像生成 (layout-to-image generation) 时,如何同时精确控制全局布局图和每个细节对象仍是一项具有挑战性的任务。本文提出了一种名为 Layout Diffusion 的扩散模型,其生成质量和控制能力均优于先前工作。为解决图像与布局的多模态融合难题,我们提出构建具有区域信息的结构化图像块 (structural image patch),并将分块图像转换为特殊布局形式,从而实现与常规布局的统一融合。此外,本文提出的布局融合模块 (Layout Fusion Module, LFM) 和对象感知交叉注意力 (Object-aware Cross Attention, OaCA) 能够建模多对象间关系,其设计具备对象感知和位置敏感性,可精确控制空间相关信息。 由 shadow发布于 2025-07-15 20:57:36 扩散模型数据集条件模型 阅读次数 236
[论文翻译]通过层次化关系和常识知识增强场景图生成 本研究提出了一种通过结合关系层次结构和常识知识来生成场景图的增强方法。具体而言,我们首先提出了一种利用信息层次结构的分层关系头 (hierarchical relation head) ,联合预测图像中物体对之间的关系超类别以及每个超类别下的详细关系。随后,我们实现了一个鲁棒的常识验证流程 (commonsense validation pipeline) ,利用基础模型对场景图预测系统的结果进行批判性评估,即使使用小型纯语言模型也能消除无意义的谓词。 由 shadow发布于 2025-07-15 10:03:02 场景图生成语言模型大语言模型 阅读次数 237
[论文翻译]用紧凑型Transformer (Compact Transformers) 逃离大数据范式 随着Transformer成为语言处理的标准模型,并在计算机视觉领域取得进展,其参数量与训练数据规模也相应增长。这使许多人认为Transformer不适用于小规模数据场景,由此引发诸多担忧:某些科学领域的数据可获得性受限,以及资源有限的研究者被排除在该领域研究之外。本文通过引入紧凑型Transformer (Compact Transformers) 提出小规模学习方法。 由 shadow发布于 2025-07-14 21:04:11 视觉模型语言处理大规模训练数据 阅读次数 236
[论文翻译]iColoriT: 利用Vision Transformer在交互式着色中将局部提示传播至正确区域 点交互式图像着色旨在当用户为特定位置提供颜色时对灰度图像进行着色。点交互式着色方法的关键在于将用户提供的颜色(即用户提示)适当传播至整张图像,从而以最少的用户操作获得合理的着色效果。然而,现有方法由于采用堆叠卷积层来传播提示至远处相关区域的低效设计,常产生局部着色结果。为解决该问题,我们提出iColoriT——一种利用Transformer全局感受野的新型点交互式着色视觉Transformer,能够将用户提示传播至相关区域。 由 shadow发布于 2025-07-14 20:51:21 iColoriTTransformer编码器PEV指标 阅读次数 530
[论文翻译]HiFaceGAN:基于协同抑制与补充的人脸修复技术 有的人脸修复研究通常依赖于图像退化先验或显式指导标签进行训练,这往往导致对具有异质退化和丰富背景内容的真实图像泛化能力有限。本文通过解除对这两类先验的要求,研究了一个更具挑战性和实用性的"双盲"版本问题,称为"人脸翻新"(Face Renovation, FR)。具体而言,我们将FR表述为语义引导的生成问题,并采用协作抑制与补充(CSR)方法来解决。 由 shadow发布于 2025-07-14 20:48:08 面部修复图像合成协作学习 阅读次数 175
[论文翻译]Relation3D:增强点云实例分割中的关系建模 3D实例分割旨在预测场景中的一组物体实例,将其表示为带有对应语义标签的二进制前景掩码。当前,基于Transformer的方法因其优雅的流程和卓越的预测性能受到越来越多的关注。然而,这些方法主要通过掩码注意力建模场景特征与查询特征之间的外部关系,缺乏对场景特征内部关系以及查询特征之间关系的有效建模。针对这些不足,我们提出Relation3D:增强点云实例分割的关系建模。 由 shadow发布于 2025-07-14 20:42:04 Relation3D数据集CLSR 阅读次数 262
[论文翻译]状态空间模型遇上Transformer:3D物体检测新范式 基于DETR的方法通过多层Transformer解码器迭代优化物体查询(query),在3D室内物体检测中展现出优异性能。但Transformer解码器中的场景点特征始终保持固定,导致后续解码层贡献有限,制约了性能提升。近期状态空间模型(SSM)通过系统状态与输入的迭代交互,展现出线性复杂度的高效上下文建模能力。受此启发,我们提出新型交互式状态空间3D检测范式DEST。 由 shadow发布于 2025-07-14 20:32:17 解码器DEST方法 阅读次数 225
[论文翻译]利用局部几何特征和图结构优化基于图神经网络的3D点云处理 摘要—我们在用于3D点云处理的图神经网络(GNN)通用框架中,提出了简单而有效的点表示方法和局部邻域图构建改进方案。首先,我们提出通过加入点的关键局部几何信息来增强顶点表示,随后使用多层感知机(MLP)进行非线性投影。其次,我们改进了3D点云的GNN图构建方法。 由 shadow发布于 2025-07-14 20:26:00 神经网络数据集S3DIS数据集 阅读次数 290
[论文翻译]Mixing-Denoising 通用化占据网络 虽然当前最先进的通用隐式神经形状模型[7,54]依赖于卷积的归纳偏置,但尚不完全清楚这些偏置所产生的属性如何与点云三维重建任务兼容。我们在此背景下探索了一种替代性的通用化方法:通过放松内在模型偏置(即使用MLP而非卷积来编码局部特征),转而采用与重建任务(即去噪)相关的辅助正则化来约束假设空间。 由 shadow发布于 2025-07-14 20:17:48 MLP架构消融实验隐式神经形状模型 阅读次数 220
[论文翻译]UniTraj: 可扩展车辆轨迹预测的统一框架 摘要:车辆轨迹预测日益依赖数据驱动的解决方案,但其跨数据领域的扩展能力以及更大规模数据集对泛化性能的影响仍缺乏深入研究。虽然这些问题可通过使用多个数据集来探究,但由于数据格式、地图分辨率和语义标注类型等差异,研究面临挑战。为此,我们提出UniTraj框架,该框架统一了多种数据集、模型和评估标准,为车辆轨迹预测领域带来新机遇。 由 shadow发布于 2025-07-14 20:07:35 数据集训练模型nuScenes数据 阅读次数 213
[论文翻译]Far3D: 拓展环视3D物体检测的视野 最近,基于环视图像的3D物体检测因部署成本低而取得显著进展。然而,大多数工作主要聚焦近距离感知范围,远距离检测研究相对不足。直接将现有方法扩展到远距场景会面临计算成本高昂和收敛不稳定等挑战。 由 shadow发布于 2025-07-14 19:59:36 Argoverse 2数据集3D自适应StreamPETR 阅读次数 184
[论文翻译]MCTrack: 自动驾驶的统一3D多目标跟踪框架 本文介绍了一种新型3D多目标跟踪方法MCTrack,该方法在KITTI、nuScenes和Waymo数据集上均实现了最先进(SOTA)性能。针对现有跟踪范式在特定数据集表现优异但泛化能力不足的问题,MCTrack提供了统一解决方案。此外,我们统一了各数据集的感知结果格式(称为Base Version),使多目标跟踪(MOT)领域的研究者能专注于核心算法开发,无需承担繁重的数据预处理工作。 由 shadow发布于 2025-07-14 14:28:34 数据集Waymo数据集KITTI数据集 阅读次数 325
[论文翻译]EA-LSS: 面向3D BEV目标检测的边缘感知Lift-splat-shot框架 近年来,基于LiftSplat-Shot(LSS)的3D目标检测方法取得了巨大进展。然而,不准确的深度估计仍是制约纯摄像头和多模态3D目标检测模型精度的关键因素,尤其在深度值突变区域(即"深度跳跃"问题)。本文提出了一种新颖的边缘感知Lift-splat-shot(EA-LSS)框架:通过设计边缘感知深度融合(EADF)模块缓解"深度跳跃"问题,并采用细粒度深度(FGD)模块加强深度监督。 由 shadow发布于 2025-07-14 14:11:47 消融实验定性评估多模态 阅读次数 242
[论文翻译]基于高温精炼与背景抑制的细粒度视觉分类 摘要—细粒度视觉分类由于类别间高度相似且类内数据差异显著而极具挑战性。现有方法主要聚焦于定位类别间细微差异并增强判别性特征,但背景信息同样重要——它能提示模型哪些特征对分类无用甚至有害,而过度依赖细微特征的模型可能忽视全局特征与上下文信息。本文提出"高温精炼与背景抑制"(HERBS)网络,包含高温精炼模块和背景抑制模块:前者通过多尺度特征图精炼促进多样化特征学习,使模型自适应选择合适特征尺度;后者基于分类置信度分割前景/背景,在低置信区域抑制特征值同时增强判别性特征。 由 shadow发布于 2025-07-14 14:06:12 BS模块HERBS方法视觉信息 阅读次数 204
[论文翻译]上下文感知元学习 像 ChatGPT 这样的大语言模型展现出无需微调即可在推理过程中学习新概念的卓越能力。然而,经过训练以在推理时检测新物体的视觉模型却无法复制这种能力,要么表现不佳,要么需要对类似物体进行元训练和/或微调。在这项工作中,我们提出一种元学习算法,通过在不进行微调的情况下于推理过程中学习新视觉概念,从而模拟大语言模型。 由 shadow发布于 2025-07-14 11:37:09 元训练大语言模型元大语言模型 阅读次数 253
[论文翻译]UNICOM: 面向图像检索的通用紧凑表征学习方法 现代图像检索方法通常依赖于微调预训练的编码器来提取图像级描述符。然而,最广泛使用的模型是在类别有限的ImageNet-1K上预训练的,因此预训练的特征表示不够通用,难以很好地泛化到多样化的开放世界类别。在本文中,我们首先利用CLIP模型提取的联合文本和视觉特征,将大规模LAION 400M数据集聚类为一百万个伪类别。由于标签粒度的混淆,自动聚类的数据集不可避免地包含严重的类间冲突。 由 shadow发布于 2025-07-14 10:41:46 预训练图像检索数据集 阅读次数 248
[论文翻译]小数据集上的文本到图像生成数据外推 文本到图像生成需要大量训练数据来合成高质量图像。为扩充训练数据,先前方法依赖于裁剪、翻转和混合等数据插值技术,这些方法无法引入新信息且仅带来边际改进。本文提出一种基于线性外推的文本到图像生成数据增强新方法。具体而言,我们仅对文本特征进行线性外推,并通过搜索引擎从互联网检索新图像数据。为确保新文本-图像对的可靠性,我们设计两个离群值检测器来净化检索图像。 由 shadow发布于 2025-07-14 10:35:03 图像生成图像模型训练数据 阅读次数 217
[论文翻译]Git: 基于强度拓扑图的聚类方法 准确性、抗噪性和尺度鲁棒性、可解释性、速度以及易用性(ARISE)是一个优秀聚类算法的关键要求。然而同时实现这些目标具有挑战性,大多数先进方法仅聚焦于部分特性。为全面考量这些方面,我们提出了一种新颖的聚类算法GIT(基于强度拓扑图的聚类)。 由 shadow发布于 2025-07-14 10:07:41 FMNIST数据集UMAP降维MNIST 阅读次数 237