• [论文翻译]基于高阶结构的中层特征学习在可见光-红外行人重识别中的应用

    可见光-红外行人重识别(VI-ReID)旨在检索由可见光(VIS)和红外(IR)摄像头捕获的同一行人图像。现有VI-ReID方法忽略了特征的高阶结构信息,同时由于VIS和IR图像之间存在较大模态差异,较难学习到合理的共同特征空间。针对上述问题,我们提出了一种基于高阶结构的中间特征学习网络(HOS-Net)。具体而言,我们首先利用短长程特征提取(SLE)模块有效获取短程和长程特征。接着提出高阶结构学习(HSL)模块,基于白化超图网络成功建模每张行人图像不同局部特征间的高阶关系,极大缓解了模型坍塌问题并增强了特征表示能力。最后开发了共同特征空间学习(CFL)模块,通过对齐不同模态和范围的特征生成中间特征,进而学习判别性强且合理的共同特征空间。特别提出模态-范围身份中心对比(MRIC)损失函数,缩小VIS、IR与中间特征之间的距离,使训练过程更加平滑。在SYSU-MM01、RegDB和LLCM数据集上的大量实验表明,我们的HOS-Net取得了最先进的性能。代码已开源在https://github.com/Julaucong/HOS-Net。
  • [论文翻译]面向野外单目视频的鲁棒平滑3D多人姿态估计

    3D姿态估计是计算机视觉中一项极具价值的任务,拥有多种实际应用。特别是基于单目视频的多人物3D姿态估计(3DMPPE)尤为困难,目前仍存在大量未探索领域,远未达到应用于真实场景的水平。我们指出现有方法的三个未解决问题:训练时对未见视角缺乏鲁棒性、易受遮挡影响以及输出存在严重抖动。为此,我们提出POTR-3D——首个面向3DMPPE的序列到序列2D转3D提升模型,采用创新的几何感知数据增强策略,能够生成无限视角数据并兼顾地平面约束与遮挡处理。通过大量实验验证,该模型与数据增强方案能稳健泛化至多样未见视角,有效恢复重度遮挡下的姿态,并生成更自然平滑的输出。我们的方法不仅在公开基准测试中达到最先进性能,更通过更具挑战性的真实场景视频定性结果验证了其有效性。演示视频详见https://www.youtube.com/@potr3d。
  • [论文翻译]面向情感识别的通用视听学习

    当前大多数视听情感识别模型缺乏实际应用部署所需的灵活性。我们设想了一种多模态系统,即使在仅有一种模态可用时仍能工作,并能灵活切换用于预测情感属性或识别分类情感。由于准确解释和整合多样化数据源存在固有挑战,实现这种多模态情感识别系统的灵活性十分困难。在允许回归或分类任务直接切换的同时,鲁棒地处理缺失或部分信息也是一项挑战。本研究提出了一种通用视听学习框架(VAVL),可处理单模态和多模态系统,适用于情感回归或情感分类任务。我们实现的视听框架即使在训练集中部分数据缺失配对模态时(即仅含音频或仅含视频)仍可训练。通过视听共享层、共享层残差连接和单模态重建任务,我们实现了有效的表征学习。实验结果表明,我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强基线模型。值得注意的是,VAVL在MSP-IMPROV语料库的情感属性预测任务中取得了新的最先进性能。
  • [论文翻译]TFNet: 利用时序线索实现快速精准的激光雷达语义分割

    LiDAR语义分割在让自动驾驶和机器人准确、鲁棒地理解周围环境方面起着关键作用。该领域存在多种方法,包括基于点、基于距离图像(range image)、基于极坐标和混合策略的方法。其中,基于距离图像的技术因其高效性在实际应用中获得了广泛采用。然而,它们面临一个重大挑战——由于距离图像有限的水平和垂直角分辨率导致的"多对一"问题。因此,约20%的3D点可能被遮挡。本文提出了TFNet,一种利用时序信息解决该问题的基于距离图像的LiDAR语义分割方法。具体而言,我们引入了一个时序融合层,从前序扫描中提取有用信息并与当前扫描融合。随后,我们设计了一种基于最大投票的后处理技术来修正错误预测,特别是由"多对一"问题引起的误判。我们在两个基准测试上评估了该方法,并证明该插件式后处理技术具有通用性,可应用于各种网络。
  • [论文翻译]基于锐度感知最小化的高效泛化提升方法

    在当今高度过参数化的模型中,训练损失值对模型泛化能力的保证十分有限。事实上,仅优化训练损失值(这是常见做法)很容易导致模型质量欠佳。受先前关于损失函数几何形状与泛化能力关联研究的启发,我们提出了一种新颖有效的方法,可同时最小化损失值和损失锐度。具体而言,我们的锐度感知最小化(Sharpness-Aware Minimization,SAM)方法会寻找处于均匀低损失邻域的参数;该方案形成了一个可通过梯度下降高效求解的极小极大优化问题。实验结果表明,SAM在多种基准数据集(如CIFAR \$\{10,100\}\$、ImageNet、微调任务)和模型上均提升了泛化能力,并在多项任务中创造了最新最优性能。此外,我们发现SAM天然具备与专门针对噪声标签学习的最先进方法相当的标签噪声鲁棒性。代码已开源:https://github.com/google-research/sam。
  • [论文翻译]结构化预测中嵌入向量的自动拼接

    预训练上下文嵌入(contextualized embeddings)是结构化预测任务中强大的词表征方式。近期研究发现,通过拼接不同类型的嵌入可以获得更优的词表征。然而,最优拼接组合的选择通常因任务和候选嵌入集而异,且嵌入类型的不断增加使得该问题更具挑战性。本文提出自动化嵌入拼接(Automated Concatenation of Embeddings,ACE)方法,基于神经架构搜索最新进展的启发式建模,自动寻找适用于结构化预测任务的更优嵌入组合。具体而言,控制器根据当前对各类嵌入在任务中有效性的评估,交替采样嵌入组合,并基于奖励信号更新评估。我们采用强化学习策略优化控制器参数,其奖励信号源自任务模型的准确率——该模型以采样组合作为输入,并在任务数据集上训练。在6个任务21个数据集上的实验表明,我们的方法优于强基线模型,且在所有评估中使用微调嵌入均达到了最先进性能[20]。
  • [论文翻译]让不可见变得可见:穿墙与遮挡场景下的动作识别

    理解人类行为及其互动通常依赖于视觉观察。从视觉数据中自动识别动作的过程一直是计算机视觉领域的重要研究方向。但如果光线过暗、人物被遮挡或位于墙后呢?本文提出一种神经网络模型,能够穿透墙壁和遮挡物,在弱光条件下检测人类行为。该模型以射频(RF)信号为输入,通过生成3D人体骨骼作为中间表征,实现多人动作与交互的时序识别。通过将输入转换为基于骨骼的中间表征,我们的模型能同时利用基于视觉和基于RF的数据集进行训练,并使两项任务相互促进。实验表明,在可见场景下本模型达到与视觉动作识别系统相当的精度,同时在人物不可见时仍能保持准确识别,从而突破了当前视觉动作识别技术的应用边界。
  • [论文翻译]跨区域亲和蒸馏在道路标线分割中的应用

    我们研究从大型深度教师网络向更小型学生网络蒸馏知识以完成道路标线分割任务的问题。在本工作中,我们探索了一种新颖的知识蒸馏(KD)方法,能够更有效地将场景结构"知识"从教师模型传递给学生模型。该方法称为区域间亲和力知识蒸馏(IntRA-KD),其将给定道路场景图像分解为不同区域,并将每个区域表示为图中的节点,然后根据节点间特征分布的相似性建立成对关系,从而形成区域间亲和力图。为了从教师网络学习结构知识,要求学生网络匹配教师网络生成的图。通过采用多种轻量级模型作为学生网络、ResNet-101作为教师网络,所提方法在三个大规模道路标线分割基准数据集(ApolloScape、CULane和LLAMAS)上展现出优异效果。与现有蒸馏方法相比,IntRA-KD在所有轻量级模型上均能带来更高的性能提升。代码已开源:https://github.com/cardwing/Codes-for-IntRA-KD。
  • [论文翻译]基于图卷积网络的动态场景理解

    摘要—我们提出了一种基于多关系图卷积网络 (Multi-Relational Graph Convolutional Network,MRGCN) 的新框架,用于从移动单目摄像头抓取的时间有序帧序列中建模道路车辆行为。MRGCN的输入是一个多关系图,其中图的节点表示场景中的主动和被动智能体/对象,连接每对节点的双向边是它们的时空关系编码。
  • [论文翻译]UniHCP: 以人为本的感知统一模型

    以人为本的感知任务(如姿态估计、人体解析、行人检测、行人重识别等)在视觉模型的工业应用中扮演着关键角色。虽然特定的人本任务各有其关注的语义层面,但它们都共享相同的人体底层语义结构。然而,很少有研究尝试利用这种同质性来设计通用的人本任务模型。本文重新审视了广泛的人本任务,并以极简方式将其统一。我们提出UniHCP(人本感知统一模型),通过朴素的视觉Transformer架构,以简化的端到端方式统一了多种人本任务。通过在33个人本数据集上进行大规模联合训练,UniHCP在直接评估时能超越多个领域内和下游任务的强基线。当适配特定任务时,UniHCP在广泛的人本任务中刷新了SOTA纪录:人体解析任务在CIHP上达到69.8 mIoU,属性预测在PA100K上达到86.18 mA,行人重识别在Market1501上达到90.3 mAP,行人检测在CrowdHuman上达到85.8 JI,表现均优于为各任务专门设计的模型。代码与预训练模型已开源:https://github.com/OpenGVLab/UniHCP。
  • [论文翻译]分子系统精确高效几何深度学习的通用框架

    分子科学研究涉及各种类型和尺寸的分子及其复合物的广泛问题。近年来,几何深度学习(尤其是图神经网络 (GNNs))在分子科学应用中展现出优异性能。然而,现有研究大多针对特定分子系统引入定向归纳偏置,在处理大分子或大规模任务时效率低下,限制了其在现实问题中的应用。为解决这些挑战,我们提出了PAMNet——一个通用框架,能够准确高效地学习任何分子系统中不同尺寸和类型的三维 (3D) 分子表征。受分子力学启发,PAMNet通过物理信息偏置显式建模局部与非局部相互作用及其协同效应,从而减少昂贵计算操作,实现时间和内存高效性。在涵盖小分子性质、RNA三维结构和蛋白质-配体结合亲和力的三大学习任务基准测试中,PAMNet在准确性与效率方面均超越现有最优基线。这些结果表明PAMNet在分子科学领域具有广泛的应用潜力。
  • [论文翻译]Π网络:深度多项式神经网络

    深度卷积神经网络 (DCNNs) 是目前计算机视觉和机器学习中生成式与判别式学习的首选方法。DCNNs 的成功可归因于对其构建模块的精心选择 (例如残差块、整流器、复杂的归一化方案等)。本文提出了一类新型 DCNNs——Π-Nets,这是一种多项式神经网络,其输出是输入的高阶多项式。Π-Nets 可通过特殊类型的跳跃连接实现,其参数可用高阶张量表示。我们通过实验证明,在图像、图和音频等多种任务和信号中,Π-Nets 比标准 DCNNs 具有更强的表征能力,甚至在不使用非线性激活函数的情况下也能取得良好效果。当与激活函数结合使用时,Π-Nets 在图像生成等挑战性任务中达到了最先进的水平。最后,我们的框架阐明了 StyleGAN 等近期生成模型为何能超越 ProGAN 等前代模型。
  • [论文翻译]基于多模态球面图像的单帧语义分割

    近年来,研究界对提供360°全方位视角的全景图像表现出浓厚兴趣。为实现其潜力,可输入多种数据模态,并基于语义分割利用互补特征进行更鲁棒、更丰富的场景理解。然而现有研究主要集中于针孔RGB-X语义分割。本研究提出一种基于Transformer的跨模态融合架构,以弥合多模态融合与全向场景感知之间的差距。我们采用失真感知模块来解决等距柱状投影导致的极端物体形变和全景畸变。此外,在合并特征前进行跨模态交互以实现特征校正和信息交换,从而在双模态和三模态特征流中传递远程上下文关系。通过在三个室内全景数据集的四种模态组合上进行全面测试,我们的技术实现了最先进的mIoU性能:斯坦福2D3DS[2] (RGB-HHA)达60.60%,Structured3D[44] (RGB-D-N)达71.97%,Matterport3D[5] (RGB-D)达35.92%。
  • [论文翻译]面部表情识别

    随着过去几十年面部表情数据库的日益开放,面部表情识别(Facial Expression Recognition, FER)任务受到了广泛关注。不同来源的可用数据库给面部识别任务带来了诸多挑战,这些挑战通常由卷积神经网络(Convolution Neural Network, CNN)架构来解决。与CNN模型不同,最近提出了一种基于注意力机制的Transformer模型来处理视觉任务。Transformer的主要问题之一是需要大量数据进行训练,而与其他视觉应用相比,大多数FER数据库规模有限。因此,本文提出将视觉Transformer与挤压激励(Squeeze and Excitation, SE)模块联合学习用于FER任务。
  • [论文翻译]基于自编码器的混合推荐系统

    精通推荐系统高度依赖矩阵分解 (Matrix Factorization, MF) 技术。MF 旨在从不完整且含噪的初始矩阵中重建评分矩阵,进而利用该预测结果构建实际推荐。与此同时,神经网络 (Neural Networks, NN) 在过去十年取得巨大成功,但鲜有研究尝试用自编码器 (autoencoder) 进行推荐。本文汇集了文献中的最佳实践以实现这一目标:首先揭示基于自编码器的方法与 MF 之间的关联;其次改进自编码器的训练方法以处理不完整数据;随后设计端到端系统以整合外部信息;最终在 MovieLens 和豆瓣数据集上对这些方法进行实证评估。
  • [论文翻译]通过分层采样学习网络的拓扑表征

    摘要—拓扑信息对于研究网络中节点间的关系至关重要。近年来,网络表示学习(NRL)通过将网络映射到低维向量空间,在分析大规模网络方面展现出显著优势。然而,现有大多数NRL方法仅专注于保留网络的局部拓扑结构,未能有效捕捉全局拓扑特征。为解决这一问题,我们提出了一种名为HSRL的新型NRL框架,旨在帮助现有NRL方法同时捕获网络的局部和全局拓扑信息。具体而言,HSRL采用基于社区感知的压缩策略,递归地将输入网络压缩为一系列更小的网络;随后使用现有NRL方法学习每个压缩网络的节点嵌入;最终通过拼接所有压缩网络的节点嵌入,获得输入网络的节点表示。在五个真实数据集上的链路预测实验表明,HSRL优于当前最先进的方法。
  • [论文翻译]CLRerNet: 基于 LaneIoU 提升车道线检测置信度

    车道线检测是自动驾驶和驾驶员辅助系统的关键组成部分。采用基于行的车道表示方法的现代深度车道检测技术在车道检测基准测试中表现出卓越性能。通过初步实验验证,我们首先解构了车道表示组件以确定研究方向。研究表明,现有基于行的检测器预测结果中已包含正确的车道位置,而能准确反映预测与真实值交并比(IoU)的置信度分数最具价值。基于这一发现,我们提出LaneIoU方法,通过考虑局部车道角度使其与评估指标更相关。我们开发了新型检测器CLRerNet,其采用LaneIoU作为目标分配代价和损失函数,旨在提升置信度评分质量。经过包含交叉验证在内的严谨公平测试,证明CLRerNet大幅超越现有最优技术——在CULane数据集上F1分数达81.43%(对比现有方法的80.47%),在CurveLanes数据集上达86.47%(对比86.10%)。代码与模型详见https://github.com/hirotomusiker/CLRerNet。
  • [论文翻译]LION: 用于点云3D物体检测的线性分组循环神经网络

    在大规模3D点云感知任务(如3D目标检测)中,Transformer因建模长距离关系时存在二次计算成本,其优势受到限制。相比之下,线性RNN具有较低计算复杂度,更适合长距离建模。为此,我们提出了一种基于线性分组RNN(即对分组特征执行线性RNN)的简单高效窗口化框架LION,用于精准3D目标检测。其核心特性是允许在比基于Transformer的方法更大的组内实现充分特征交互。然而,由于线性分组RNN在空间建模方面的局限性,将其有效应用于高度稀疏点云的3D目标检测并非易事。为此,我们创新性地引入3D空间特征描述符,将其集成到线性分组RNN算子中以增强空间特征,而非盲目增加体素特征的扫描顺序数量。针对高度稀疏点云的挑战,我们提出3D体素生成策略,利用线性分组RNN作为自回归模型的天然特性来增强前景特征密度。大量实验验证了所提组件的有效性,以及LION对不同线性分组RNN算子(包括Mamba、RWKV和RetNet)的泛化能力。值得注意的是,LIONMamba在Waymo、nuScenes、Argoverse V2和ONCE数据集上实现了最先进性能。最后,我们的方法支持在小而流行的KITTI数据集上使用多种先进线性RNN算子(如RetNet、RWKV、Mamba、xLSTM和TTT),便于快速体验基于线性RNN的框架。
  • [论文翻译]数据到文本生成中的自记忆自训练

    本文提出了一种新颖的训练模型——数据到文本生成(DTG)中的自记忆自训练(STSM),该模型能够在子集上进行自我训练,包括将训练模型直接推断的输出和/或新数据作为自记忆。自记忆的质量通过两个模型(数据到文本(D2T)和文本到数据(T2D))以及两个预定义条件进行验证:(1) D2T模型输出中包含所有源值,(2) T2D模型输出能够转换回源数据。我们采用贪心算法生成更短的D2T输出(前提是它们包含所有源值),随后使用T2D模型通过验证文本能否转换回数据来确认这些输出能捕捉输入关系。仅使用数据集的30%,我们就能训练出与全量训练配置下性能相当的D2T模型。我们在E2E NLG和DART两个数据集上进行了实验。STSM使D2T模型能够从子集记忆中获得泛化能力,同时减少训练数据量。最终,我们期待本文能为持续学习解决方案做出贡献,使其能够适应新的训练数据,并将其作为DTG任务中自记忆的一种形式。整理后的数据集已公开发布于:https://github.com/hoangthanhta/STSM。
  • [论文翻译]实用信息文本生成

    我们运用计算语用学技术提升条件文本生成模型的信息性。这些技术将语言生成建模为说话者与听者之间的博弈,要求说话者生成的文本能让听者准确识别出原文描述的输入内容。虽然此类方法在认知科学和具身语言学习领域应用广泛,但在标准语言生成任务中关注较少。我们研究了两种语用文本生成建模方法:一种通过信息保留实现语用约束,另一种通过显式建模干扰项实现语用约束。实验表明,这些方法能显著提升现有抽象摘要系统和结构化语义表示生成系统的性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理