• [论文翻译]该方法通过构建教师-学生双网络架构实现:教师网络为无标注图像生成伪标签

    我们提出元伪标签 (Meta Pseudo Labels),这是一种半监督学习方法,在 ImageNet 上实现了 90.2% 的最新 top-1 准确率,比现有最佳结果 [16] 高出 1.6%。与伪标签 (Pseudo Labels) 类似,元伪标签通过教师网络在未标记数据上生成伪标签来指导学生网络。然而,与固定教师的伪标签不同,元伪标签中的教师会根据学生在标记数据集上的表现反馈不断调整。因此,教师能生成更优质的伪标签来指导学生。1
  • [论文翻译]视觉空间推理

    空间关系是人类认知的基本组成部分。然而,它们在自然语言中以多种方式表达,先前的研究表明,当前的视觉与语言模型 (VLM) 难以捕捉关系信息。本文提出了视觉空间推理 (VSR) 数据集,包含超过1万组自然文本-图像对,涵盖66种英语空间关系(例如:under, in front of, facing)。尽管采用看似简单的标注格式,我们展示了该数据集如何涵盖具有挑战性的语言现象,例如变化的参照系。
  • [论文翻译]ClickDiff: 通过点击诱导语义接触图实现基于扩散模型的可控抓取生成

    抓握生成旨在创建与指定物体的复杂手部交互。传统的手部生成方法主要关注场景约束下的可见性和多样性,往往忽略了接触等细粒度的手物交互,导致生成不准确且不符合预期的抓握。为解决这些挑战,我们提出可控抓握生成任务,并推出ClickDiff——一个利用细粒度语义接触图(SCM)的可控条件生成模型。该方法在合成交互式抓握时,能通过用户指定或算法预测的语义接触图实现精准控制。具体而言,为充分利用接触监督约束并精确建模手部复杂物理结构,我们提出双生成框架:语义条件模块基于细粒度接触信息生成合理接触图,而接触条件模块则结合接触图与物体点云生成逼真抓握。我们制定了适用于可控抓握生成的评估标准。在GRAB和ARCTIC数据集上的单手/双手生成实验验证了方法的有效性,证明ClickDiff即使面对未见物体仍具备优异性能与鲁棒性。代码已开源:https://github.com/adventurer-w/ClickDiff。
  • [论文翻译]BABEL: 身体、动作与行为英语标注库

    理解人类动作的语义——即动作的内容、方式和原因——是一个重要课题,需要带有语义标注的人类动作数据集。现有数据集采用两种方法之一:大规模视频数据集包含大量动作标签但缺乏真实3D人体运动数据;而动作捕捉(mocap)数据集虽具有精确身体运动数据,却仅限于少量动作类型。为此,我们推出BABEL数据集,该数据集通过语言标签描述动作捕捉序列中的行为。BABEL标注了来自AMASS的约43小时动作捕捉序列,提供两个抽象层级的动作标签:描述序列整体行为的序列级标签,以及描述序列每帧所有动作的帧级标签。每个帧标签都与动作捕捉序列中对应动作的持续时间精确对齐,且允许多个动作重叠出现。BABEL包含超过28k个序列标签和63k个帧标签,涵盖250余种独特动作类别。这些标签可应用于动作识别、时序动作定位、运动合成等任务。为验证BABEL作为基准数据集的价值,我们评估了3D动作识别模型的性能,证明该数据集提出了适用于真实场景的学习挑战,可作为3D动作识别研究进展的有效基准。该数据集、基线方法及评估代码已开源,支持学术研究用途:https://babel.is.tue.mpg.de/。
  • [论文翻译]SA-DVAE: 通过解耦变分自编码器改进零样本骨骼动作识别

    然而,据我们所知,现有方法均假设骨架序列组已被完整捕捉且高度一致,因此其核心思路集中于如何从语义层面优化文本表示。通过细致分析NTU RGB+D和PKU-MMD这两个广泛使用的基准数据集中的源视频,我们发现该假设存在疑问。我们观察到,对于某些动作标签,摄像机位姿与演员动作差异确实会引入显著噪声。针对这一现象,我们探索了有效的解决方案。受现有零样本学习方法[3](证明语义无关特征可与语义相关特征分离)的启发,我们提出了基于骨架的动作识别模型SA-DVAE。如图1所示,SA-DVAE通过将骨架潜在特征空间解耦为两个组件来解决泛化问题:语义相关项与语义无关项。该设计使模型能仅聚焦语义相关项进行动作识别,从而学习更具鲁棒性和泛化能力的视觉嵌入。此外,SA-DVAE采用学习型总相关性惩罚机制,通过对抗判别器估算解耦潜在特征间总相关性下界,强制两项特征保持独立性并最小化表征间的共享信息。
  • [论文翻译]包含51种类型多样语言的百万示例多语言自然语言理解数据集

    我们发布了MASSIVE数据集——面向槽填充、意图分类和虚拟助手评估的多语言亚马逊SLURP资源包。该数据集包含100万条真实场景下的平行标注虚拟助手话语,涵盖51种语言、18个领域、60种意图和55个槽位。MASSIVE通过聘请专业翻译人员将仅限英语的SLURP数据集本地化为来自29个语系的50种类型多样的语言。我们还展示了基于XLM-R和mT5的建模结果,包括精确匹配准确率、意图分类准确率和槽填充F1分数。我们已公开数据集、建模代码和模型。
  • [论文翻译]TAT-QA: 金融领域表格与文本混合内容问答基准

    结合表格和文本内容的混合数据(如财务报告)在现实世界中相当普遍。然而,现有研究很大程度上忽视了对此类混合数据的问答(QA)任务。本研究从真实财务报告中提取样本,构建了一个新的大规模QA数据集TAT-QA,其中同时包含表格和文本数据,通常需要进行数值推理(如加减乘除、计数、比较/排序及其组合)来推导答案。我们进一步提出名为TAGOP的新型QA模型,能够对表格和文本进行联合推理。该模型采用序列标注技术从表格中提取相关单元格及文本中的相关片段以推断语义,然后通过一组聚合运算符进行符号推理得到最终答案。实验表明,TAGOP在TAT-QA数据集上达到58.0%的F1值,较之前最佳基线模型绝对提升11.1%。但这一结果仍远低于人类专家90.8%的F1表现,证明TAT-QA具有较高挑战性,可作为训练和测试混合数据QA模型的基准。数据集已开源供非商业使用:https://next plus plus. github.io/TAT-QA/。
  • [论文翻译]V2VNet: 面向联合感知与预测的车车通信技术

    摘要。本文探讨了如何利用车对车(V2V)通信技术提升自动驾驶车辆的感知与运动预测性能。通过智能聚合来自多辆邻近车辆的信息,我们能够从不同视角观察同一场景。这种方法使我们能够穿透遮挡物,在观测数据极其稀疏或完全缺失的远距离区域检测动态目标。我们还证明,通过发送压缩的深度特征图激活值(deep feature map activations),我们的方法在满足通信带宽要求的同时实现了高精度。
  • [论文翻译]WIT: 基于维基百科的多模态多语言机器学习图像文本数据集

    深度表征学习和预训练技术带来的里程碑式改进,显著提升了NLP、信息检索(IR)和视觉任务的下游性能。多模态建模技术旨在利用大规模高质量视觉语言数据集,学习跨图像与文本模态的互补信息。本文推出基于维基百科的图文数据集WIT (Wikipediabased Image Text Dataset),以更好地促进多模态多语言学习。WIT包含精选的3760万组富含实体的图文样本,涵盖108种维基百科语言的1150万张独特图像。其规模使WIT能作为多模态模型的预训练数据集,我们在图像-文本检索等下游任务中验证了其有效性。WIT具备四大独特优势:首先,WIT是当前规模最大的多模态数据集(样本量达第二名的3倍);其次,WIT首次实现超百种语言的大规模多语言覆盖(每种语言至少含1.2万样本),并为大量图像提供跨语言文本;第三,WIT涵盖的概念和现实实体比既有数据集更具多样性;最后,WIT通过图像-文本检索任务实证表明,其提供了极具挑战性的真实世界测试集。
  • [论文翻译]重新审视基于骨架的动作识别

    人体骨架作为人类动作的紧凑表示形式,近年来受到越来越多的关注。许多基于骨架的动作识别方法采用GCN(图卷积网络)在人体骨架上提取特征。尽管这些尝试显示出积极成果,但基于GCN的方法在鲁棒性、互操作性和可扩展性方面存在局限。本文提出PoseConv3D,一种基于骨架动作识别的新方法。该方法以3D热图体积而非图序列作为人体骨架的基础表示。与基于GCN的方法相比,PoseConv3D能更有效地学习时空特征,对姿态估计噪声具有更强鲁棒性,并在跨数据集场景中表现更优。此外,PoseConv3D无需额外计算成本即可处理多人场景。其分层特征可轻松与其他模态在早期融合阶段集成,为性能提升提供了广阔设计空间。PoseConv3D在六个标准骨架动作识别基准中的五个取得最优结果,当与其他模态融合时,在全部八个多模态动作识别基准上均达到最优。代码已开源:https://github.com/kennymckormick/pyskl。
  • [论文翻译]StarGAN:统一的多领域图像到图像转换生成对抗网络

    图 1: 通过迁移从RaFD数据集学到的知识,在CelebA数据集上实现的多领域图像到图像转换结果。第一列和第六列为输入图像,其余列是由StarGAN生成的图像。请注意,这些图像均由单一生成器网络生成,且愤怒、快乐、恐惧等面部表情标签来自RaFD数据集而非CelebA。
  • [论文翻译]Samba-ASR: 基于结构化状态空间模型 (Structured State-Space Models) 的尖端语音识别技术

    我们提出Samba ASR,这是首个基于新颖Mamba架构作为编码器和解码器的最先进自动语音识别(ASR)模型,建立在状态空间模型(SSMs)的基础上。与依赖自注意力机制捕捉依赖关系的基于Transformer的ASR模型不同,Samba ASR利用高效的状态空间动力学有效建模局部和全局时间依赖关系,实现了显著的性能提升。通过解决Transformer的局限性,例如输入长度的二次方缩放和处理长距离依赖的困难,Samba ASR实现了卓越的准确性和效率。
  • [论文翻译]你只需要一种色彩空间:一种用于低光图像增强的高效网络

    摘要—低光照图像增强(LLIE)任务旨在从受损的低光照图像中恢复细节和视觉信息。现有方法大多通过在sRGB和HSV色彩空间上训练深度神经网络来学习低光/正常光图像间的映射函数。然而这些方法在增强过程中存在敏感性和不稳定性,常会产生明显的色彩与亮度伪影。为解决该问题,我们提出了一种新型可训练色彩空间HVI (Horizontal/Vertical-Intensity),该空间不仅通过从RGB通道解耦亮度与色彩来缓解增强过程中的不稳定性,还能通过可训练参数适应不同光照范围的低光图像。此外,我们设计了色彩与亮度解耦网络(CIDNet),采用双分支架构在HVI空间中分别处理解耦后的图像亮度和色彩信息。创新性地引入光照交叉注意力(LCA)模块促进双分支间图像结构与内容信息的交互,同时有效抑制低光图像噪声。通过22项定量与定性实验表明,所提出的CIDNet在11个数据集上均优于当前最先进方法。代码已开源:https://github.com/Fediory/HVI-CIDNet。
  • [论文翻译]UniNet: 基于对比学习的特征选择统一异常检测框架

    异常检测(AD)是一项关键的视觉任务,旨在识别样本中的异常模式。然而,现有大多数AD方法泛化能力有限,因为它们主要针对特定领域(如工业场景)设计,在其他领域表现往往不佳。这一挑战主要源于跨领域特征的内在差异。为弥合领域差距,我们提出了通用统一框架UniNet,它融合了有效特征选择和对比学习引导的异常判别。UniNet包含师生模型和瓶颈结构,具有以下关键创新:首先,我们提出领域相关特征选择机制,通过领域先验知识指导学生模型从教师模型中选择并聚焦代表性特征,同时高效恢复这些特征。其次,开发了相似性对比损失函数以增强同类特征间的关联性,同时提出边界损失函数来扩大异常与正常样本相似度的分离度,有效提升模型异常判别能力。第三,我们提出加权决策机制来动态评估异常分数,实现稳健的异常检测。在11个跨领域数据集的大规模实验中,UniNet超越了现有方法[1]。
  • [论文翻译]这篇CVPR论文是计算机视觉基金会提供的开放获取版本。除本水印外,其内容与录用版本完全相同;最终出版版本请参见IEEE Xplore。

    我们提出了一种新颖的多模态多任务网络及相应的训练算法。该方法能够处理约12种不同模态的数据,包括图像、视频、音频、文本、深度、点云、时间序列、表格、图结构、X射线、红外、IMU(惯性测量单元)和高光谱数据。所提出的方法利用模态专用分词器、共享的Transformer架构和交叉注意力机制,将不同模态的数据映射到统一的嵌入空间。它通过为各模态中的不同任务配备特定模态的任务头,解决了多模态和多任务场景下的问题。我们提出了一种新颖的预训练策略,采用迭代模态切换来初始化网络,并提出了一种训练算法,该算法在所有模态的完全联合训练与每次仅针对两个模态的训练之间进行权衡。我们在来自12种模态的25个数据集上进行了全面评估,展示了最先进的性能,证明了所提出的架构、预训练策略和适配的多任务训练方法的有效性。
  • [论文翻译]跨模态局部最短路径与全局增强的可见光-热成像行人重识别

    摘要—在可见光-热红外跨模态行人重识别(VTReID)任务中,除了考虑人体姿态和遮挡带来的识别困难外,还需解决不同成像系统导致的模态差异。本文提出基于局部与全局特征联合学习的双流网络框架CM-LSP-GE模块,核心思想是通过局部特征对齐解决遮挡问题,通过全局特征增强解决模态差异。首先设计基于注意力机制的双流ResNet网络提取双模态特征并映射至统一特征空间;其次将图像水平切分为若干等份获取局部特征,通过计算两图局部特征间最短路径实现细粒度局部特征对齐,以解决跨模态行人姿态与遮挡问题;第三采用批归一化增强模块对全局特征实施增强策略,从而扩大类间差异;多粒度损失融合策略进一步提升了算法性能;最终通过局部与全局特征的联合学习机制提升跨模态行人重识别准确率。在两个典型数据集上的实验结果表明,本模型显著优于现有最优方法,特别是在SYSU-MM01数据集的全搜索模式下,Rank-1和mAP指标分别获得2.89%和7.96%的提升。源代码即将开源。
  • [论文翻译]基于研究论文的信息检索问答数据集

    学术论文的读者通常以回答特定问题为目标进行阅读。能够解答这些问题的问答系统可以大幅提升内容消化效率。然而构建此类工具需要能反映任务难度的数据,这种难度源于对论文多个部分主张的复杂推理。相比之下,现有信息检索型问答数据集通常只包含关于通用事实型信息的问题。为此我们推出QASPER数据集,包含针对1,585篇自然语言处理论文提出的5,049个问题。
  • [论文翻译]类别难度平衡损失函数解决类别不平衡问题

    摘要。类别不平衡是现实世界数据集中的主要挑战之一,其中少数类别(称为多数类)包含的数据样本远多于其他类别(称为少数类)。使用此类数据集训练深度神经网络通常会导致模型性能偏向多数类。先前的研究大多通过以不同方式(如数据重采样、代价敏感学习)为少数类分配更高权重来解决类别不平衡问题。然而,我们认为可用训练数据量未必总是确定权重分配策略的良好依据,因为某些少数类可能仅需少量训练数据即可充分表征。对此类样本过度加权反而会导致模型整体性能下降。我们提出模型的"类别难度"感知才是确定权重的关键因素。基于此,我们提出了一种名为类别难度平衡损失(Class-wise Difficulty-Balanced loss,CDB损失)的新型损失函数,该函数根据样本所属类别的难度动态分配权重。值得注意的是,随着学习进程中模型感知难度的变化,分配的权重也会动态调整。我们在图像数据集(人工构建类别不平衡的MNIST、长尾CIFAR和ImageNet-LT)和视频数据集(EGTEA)上进行了大量实验。结果表明,无论数据类型(视频或图像)如何,CDB损失在类别不平衡数据集上的表现始终优于最近提出的损失函数。
  • [论文翻译]Pair-VPR: 基于位置感知预训练和对比配对分类的视觉位置识别方法(Vision Transformers)

    摘要—本文提出了一种新颖的视觉位置识别(VPR)联合训练方法,该方法同时学习全局描述符和用于重排序的图像对分类器。该分类器可预测给定图像对是否来自同一地点。网络仅由Vision Transformer组件构成,包括编码器和图像对分类器,两者均使用各自的类别token进行训练。现有VPR方法通常使用通用图像数据集(如ImageNet)的预训练权重初始化网络。本文提出了一种替代预训练策略,采用孪生掩码图像建模(Siamese Masked Image Modeling)作为预训练任务。我们提出从大型VPR数据集中进行位置感知图像采样的方法,以预训练专门针对VPR任务优化的视觉特征模型。通过在第二阶段训练中复用掩码图像建模的编码器和解码器权重,Pair-VPR在五个基准测试中实现了最先进的VPR性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理