• [论文翻译]系统性红斑狼疮中的B细胞靶向治疗

    系统性红斑狼疮 (SLE) 是一种病因未明的慢性自身免疫性疾病,主要累及育龄期女性。其异质性远超其他疾病,患者临床表现千变万化且疾病活动度升高期难以预测。这种异质性不仅导致治疗决策和预后评估困难,更使药物研发面临严峻挑战。尽管存在这些障碍,美国食品药品监督管理局 (FDA) 批准的贝利尤单抗 (belimumab) 、伏环孢素 (voclosporin) 和阿尼鲁单抗 (anifrolumab) 等药物,与羟氯喹、糖皮质激素和免疫抑制剂等传统疗法共同丰富了治疗选择。然而,当前仍亟需开发更具疗效和安全性的治疗方案。SLE患者体内过量的自身抗体和细胞因子会引发炎症及器官损伤。虽然存在大量潜在药物靶点,但B细胞始终是研究焦点,相关策略包括:直接杀伤B细胞、调节B细胞功能、抑制B细胞生长存活关键分子、加速自身抗体清除等。本文将综述以B细胞或浆细胞为靶点的SLE临床试验新药进展。
  • [论文翻译]中国健康儿童外周血淋巴细胞亚群参考值

    外周血淋巴细胞亚群的免疫表型分析可为免疫性和血液性疾病的诊疗提供重要依据。儿童期淋巴细胞区室会经历显著变化,因此基于健康人群的年龄匹配参考值至关重要,目前已在不同种族群体中建立了相关数据[1-5]。然而涵盖整个儿童期、详尽完整的外周血淋巴细胞免疫表型参考值仍较为缺乏。本研究旨在测定中国健康儿童(0-18岁)淋巴细胞亚群的相对计数与绝对计数。
  • [论文翻译]基于免疫特征和常规实验室指标的机器学习预测肺癌

    肺癌是全球癌症相关死亡的主要原因,尤其在发达国家[1]。中国承担了其中相当大的负担,超过三分之一的新增肺癌病例发生于此。这对患者、家庭、社会乃至整个国家都造成了巨大压力。在中国,肺癌是最常被诊断出的癌症,也是癌症相关死亡的首要原因[2]。预测显示,到2050年全球癌症负担将翻倍,其中肺癌将占据主导地位[3]。导致其突出的一个关键因素是肺癌往往在进展到晚期时才被发现[1]。因此,早期检测至关重要,特别是通过对高危人群如有吸烟史者及暴露于油田、有毒工作场所等危险环境的人群进行针对性筛查[1,4]。
  • [论文翻译]视觉空间推理

    空间关系是人类认知的基本组成部分。然而,它们在自然语言中以多种方式表达,先前的研究表明,当前的视觉与语言模型 (VLM) 难以捕捉关系信息。本文提出了视觉空间推理 (VSR) 数据集,包含超过1万组自然文本-图像对,涵盖66种英语空间关系(例如:under, in front of, facing)。尽管采用看似简单的标注格式,我们展示了该数据集如何涵盖具有挑战性的语言现象,例如变化的参照系。
  • [论文翻译]高效遥感:基于统一迁移学习与模态对齐的方法

    随着视觉与语言预训练 (VLP) 的兴起,越来越多的下游任务开始采用预训练后微调的模式。尽管该模式在多模态下游任务中展现出潜力,但在遥感领域的应用仍面临一些障碍。具体而言,同模态嵌入倾向于聚集的特性会阻碍高效的迁移学习。为解决这一问题,我们从统一视角重新审视多模态迁移学习在下游任务中的目标,并基于三个不同目标重新思考优化过程。我们提出“协调迁移学习与模态对齐 (HarMA)”方法,该方法在满足任务约束、模态对齐和单模态均匀对齐的同时,通过高效参数微调最小化训练开销。值得注意的是,无需额外训练数据,HarMA 便在遥感领域两个主流多模态检索任务中实现了最先进的性能。实验表明,仅需极少量可调参数,HarMA 就能达到与全参数微调模型相当甚至更优的性能。由于其简洁性,HarMA 可集成到几乎所有现有多模态预训练模型中。我们希望该方法能促进大模型在广泛下游任务中的高效应用,同时显著降低资源消耗 [1]。
  • [论文翻译]基于高阶结构的中层特征学习在可见光-红外行人重识别中的应用

    可见光-红外行人重识别(VI-ReID)旨在检索由可见光(VIS)和红外(IR)摄像头捕获的同一行人图像。现有VI-ReID方法忽略了特征的高阶结构信息,同时由于VIS和IR图像之间存在较大模态差异,较难学习到合理的共同特征空间。针对上述问题,我们提出了一种基于高阶结构的中间特征学习网络(HOS-Net)。具体而言,我们首先利用短长程特征提取(SLE)模块有效获取短程和长程特征。接着提出高阶结构学习(HSL)模块,基于白化超图网络成功建模每张行人图像不同局部特征间的高阶关系,极大缓解了模型坍塌问题并增强了特征表示能力。最后开发了共同特征空间学习(CFL)模块,通过对齐不同模态和范围的特征生成中间特征,进而学习判别性强且合理的共同特征空间。特别提出模态-范围身份中心对比(MRIC)损失函数,缩小VIS、IR与中间特征之间的距离,使训练过程更加平滑。在SYSU-MM01、RegDB和LLCM数据集上的大量实验表明,我们的HOS-Net取得了最先进的性能。代码已开源在https://github.com/Julaucong/HOS-Net。
  • [论文翻译]可见光-热红外行人重识别的参数共享探索与异质中心三元组损失

    摘要—本文聚焦于可见光-热红外跨模态行人重识别(VT Re-ID)任务,其目标是在白天的可见光模态与夜间的热红外模态之间进行行人图像匹配。为应对跨模态差异这一VT Re-ID最具挑战性的问题,现有研究通常采用双流网络通过学习多模态行人特征来解决。本文深入探讨了双流网络应共享多少参数这一尚未被现有文献充分研究的问题。通过拆分ResNet50模型构建模态特定特征提取网络和模态共享特征嵌入网络,我们通过实验验证了双流网络参数共享对VT Re-ID的影响。此外,在局部行人特征学习框架下,我们提出异质中心三元组损失,通过用锚点中心与其他所有中心的比较替代锚点与其他所有样本的严格对比,从而放宽传统三元组损失的约束条件。
  • [论文翻译]面向野外单目视频的鲁棒平滑3D多人姿态估计

    3D姿态估计是计算机视觉中一项极具价值的任务,拥有多种实际应用。特别是基于单目视频的多人物3D姿态估计(3DMPPE)尤为困难,目前仍存在大量未探索领域,远未达到应用于真实场景的水平。我们指出现有方法的三个未解决问题:训练时对未见视角缺乏鲁棒性、易受遮挡影响以及输出存在严重抖动。为此,我们提出POTR-3D——首个面向3DMPPE的序列到序列2D转3D提升模型,采用创新的几何感知数据增强策略,能够生成无限视角数据并兼顾地平面约束与遮挡处理。通过大量实验验证,该模型与数据增强方案能稳健泛化至多样未见视角,有效恢复重度遮挡下的姿态,并生成更自然平滑的输出。我们的方法不仅在公开基准测试中达到最先进性能,更通过更具挑战性的真实场景视频定性结果验证了其有效性。演示视频详见https://www.youtube.com/@potr3d。
  • [论文翻译]基于自上而下与自下而上网络集成的单目3D多人姿态估计

    在单目视频三维多人姿态估计中,人际遮挡和紧密互动会导致人体检测错误和关节分组不可靠。现有自上而下方法依赖人体检测,因此受这些问题影响。现有自下而上方法虽不使用人体检测,但一次性处理所有同尺度人物,使其对多人尺度变化敏感。为解决这些挑战,我们提出融合两种方法以发挥各自优势:自上而下网络从图像块中估计所有人而非单人的关节,使其对可能错误的边界框具有鲁棒性;自下而上网络引入基于人体检测的归一化热图,增强处理尺度变化的能力。最终,两个网络输出的三维姿态估计被送入集成网络生成最终结果。除网络融合外,不同于现有仅针对单人设计的姿态判别器(无法评估自然人际互动),我们提出强制自然双人互动的双人姿态判别器。此外,采用半监督方法缓解三维真值数据稀缺问题。定量与定性实验验证了方法的有效性。代码已开源。[1]
  • [论文翻译]多人三维姿态与形状估计:基于逆向运动学与优化的方法

    摘要:从单目RGB图像中以网格形式估计3D姿态和形状具有挑战性。显然,这比仅以骨架或热图形式估计3D姿态更为困难。当涉及交互人物时,由于人物间遮挡引入的歧义性,3D网格重建变得更加困难。为应对这些挑战,我们提出了一种由粗到精的流程,该流程受益于:1) 基于抗遮挡3D骨架估计的逆向运动学;2) 基于Transformer的关系感知细化技术。在我们的流程中,首先从RGB图像中获取多人抗遮挡3D骨架,然后应用逆向运动学将估计的骨架转换为可变形3D网格参数,最后采用基于Transformer的网格细化方法,该技术通过考虑3D网格的人物内和人物间关系来优化获得的网格参数。通过大量实验,我们在3DPW、MuPoTS和AGORA数据集上验证了本方法的有效性,其性能优于现有技术。
  • [论文翻译]emoDARTS: 联合优化CNN与序列神经网络架构以实现卓越的语音情感识别

    摘要—语音情感识别(SER)对于计算机理解人类交流中的情感至关重要。随着深度学习(DL)的最新进展,SER模型的性能得到了显著提升。然而,设计最优的DL架构需要专业知识和实验评估。幸运的是,神经架构搜索(NAS)为自动确定最佳DL模型提供了潜在解决方案。其中可微分架构搜索(DARTS)是一种特别高效的模型优化方法。本研究提出了emoDARTS,这是一种通过DARTS优化的联合CNN和序列神经网络(SeqNN: LSTM, RNN)架构,可提升SER性能。现有文献支持选择CNN与LSTM耦合来提高性能。
  • [论文翻译]面向情感识别的通用视听学习

    当前大多数视听情感识别模型缺乏实际应用部署所需的灵活性。我们设想了一种多模态系统,即使在仅有一种模态可用时仍能工作,并能灵活切换用于预测情感属性或识别分类情感。由于准确解释和整合多样化数据源存在固有挑战,实现这种多模态情感识别系统的灵活性十分困难。在允许回归或分类任务直接切换的同时,鲁棒地处理缺失或部分信息也是一项挑战。本研究提出了一种通用视听学习框架(VAVL),可处理单模态和多模态系统,适用于情感回归或情感分类任务。我们实现的视听框架即使在训练集中部分数据缺失配对模态时(即仅含音频或仅含视频)仍可训练。通过视听共享层、共享层残差连接和单模态重建任务,我们实现了有效的表征学习。实验结果表明,我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强基线模型。值得注意的是,VAVL在MSP-IMPROV语料库的情感属性预测任务中取得了新的最先进性能。
  • [论文翻译]MAFiD: 基于移动平均的融合解码器用于表格和文本数据的问答

    基于Transformer的表格和文本问答(QA)模型面临由表格和文本元素组成的"长"混合序列,导致长距离推理问题。为处理长距离推理,我们广泛采用解码器融合(FiD)和指数移动平均(EMA),提出移动平均增强的解码器融合(MAFiD)。以FiD为骨干架构,MAFiD结合了多级推理:同质数据的独立编码、单行和多行异质推理,通过门控交叉注意力层有效聚合三种推理产生的表征。在HybridQA上的实验结果表明,MAFiD在盲测集上将精确匹配(EM)和F1分数分别提升1.1和1.7,实现了最先进性能。
  • [论文翻译]ClickDiff: 通过点击诱导语义接触图实现基于扩散模型的可控抓取生成

    抓握生成旨在创建与指定物体的复杂手部交互。传统的手部生成方法主要关注场景约束下的可见性和多样性,往往忽略了接触等细粒度的手物交互,导致生成不准确且不符合预期的抓握。为解决这些挑战,我们提出可控抓握生成任务,并推出ClickDiff——一个利用细粒度语义接触图(SCM)的可控条件生成模型。该方法在合成交互式抓握时,能通过用户指定或算法预测的语义接触图实现精准控制。具体而言,为充分利用接触监督约束并精确建模手部复杂物理结构,我们提出双生成框架:语义条件模块基于细粒度接触信息生成合理接触图,而接触条件模块则结合接触图与物体点云生成逼真抓握。我们制定了适用于可控抓握生成的评估标准。在GRAB和ARCTIC数据集上的单手/双手生成实验验证了方法的有效性,证明ClickDiff即使面对未见物体仍具备优异性能与鲁棒性。代码已开源:https://github.com/adventurer-w/ClickDiff。
  • [论文翻译]从美学与技术角度探索用户生成内容(UGC)的视频质量评估

    用户生成内容(UGC)视频的快速增长催生了对高效视频质量评估(VQA)算法的需求。然而UGC-VQA问题的目标仍存在歧义,可从两个视角解读:技术视角(测量失真感知)和美学视角(关联内容偏好与推荐)。为探究这两个视角如何影响UGC-VQA中的主观评价,我们开展了大规模主观实验,收集人类对视频整体质量及美学/技术维度的感知数据。所构建的解耦视频质量数据库(DIVIDE-3k)证实:人类对UGC视频的质量评判普遍且必然同时受美学与技术视角影响。基于此,我们提出解耦目标视频质量评估器(DOVER),从双视角学习UGC视频质量。
  • [论文翻译]BABEL: 身体、动作与行为英语标注库

    理解人类动作的语义——即动作的内容、方式和原因——是一个重要课题,需要带有语义标注的人类动作数据集。现有数据集采用两种方法之一:大规模视频数据集包含大量动作标签但缺乏真实3D人体运动数据;而动作捕捉(mocap)数据集虽具有精确身体运动数据,却仅限于少量动作类型。为此,我们推出BABEL数据集,该数据集通过语言标签描述动作捕捉序列中的行为。BABEL标注了来自AMASS的约43小时动作捕捉序列,提供两个抽象层级的动作标签:描述序列整体行为的序列级标签,以及描述序列每帧所有动作的帧级标签。每个帧标签都与动作捕捉序列中对应动作的持续时间精确对齐,且允许多个动作重叠出现。BABEL包含超过28k个序列标签和63k个帧标签,涵盖250余种独特动作类别。这些标签可应用于动作识别、时序动作定位、运动合成等任务。为验证BABEL作为基准数据集的价值,我们评估了3D动作识别模型的性能,证明该数据集提出了适用于真实场景的学习挑战,可作为3D动作识别研究进展的有效基准。该数据集、基线方法及评估代码已开源,支持学术研究用途:https://babel.is.tue.mpg.de/。
  • [论文翻译]TFNet: 利用时序线索实现快速精准的激光雷达语义分割

    LiDAR语义分割在让自动驾驶和机器人准确、鲁棒地理解周围环境方面起着关键作用。该领域存在多种方法,包括基于点、基于距离图像(range image)、基于极坐标和混合策略的方法。其中,基于距离图像的技术因其高效性在实际应用中获得了广泛采用。然而,它们面临一个重大挑战——由于距离图像有限的水平和垂直角分辨率导致的"多对一"问题。因此,约20%的3D点可能被遮挡。本文提出了TFNet,一种利用时序信息解决该问题的基于距离图像的LiDAR语义分割方法。具体而言,我们引入了一个时序融合层,从前序扫描中提取有用信息并与当前扫描融合。随后,我们设计了一种基于最大投票的后处理技术来修正错误预测,特别是由"多对一"问题引起的误判。我们在两个基准测试上评估了该方法,并证明该插件式后处理技术具有通用性,可应用于各种网络。
  • [论文翻译]HAMLET:一种基于分层多模态注意力机制的人类活动识别算法

    摘要— 为了与人类流畅协作,机器人需要具备准确识别人体活动的能力。尽管现代机器人配备了多种传感器,但由于多模态数据融合的困难,稳健的人体活动识别(HAR)对机器人而言仍是具有挑战性的任务。为解决这些难题,本研究提出了一种基于深度神经网络的多模态HAR算法HAMLET。HAMLET采用分层架构,其底层通过多头自注意力机制从单模态数据中编码时空特征。我们开发了一种新颖的多模态注意力机制,用于解耦并融合显著的单模态特征,从而在上层计算多模态特征。最终,多模态特征被输入全连接神经网络以识别人体活动。我们通过在三个人体活动数据集上与多种先进活动识别算法进行性能对比来评估本算法。
  • [论文翻译]基于锐度感知最小化的高效泛化提升方法

    在当今高度过参数化的模型中,训练损失值对模型泛化能力的保证十分有限。事实上,仅优化训练损失值(这是常见做法)很容易导致模型质量欠佳。受先前关于损失函数几何形状与泛化能力关联研究的启发,我们提出了一种新颖有效的方法,可同时最小化损失值和损失锐度。具体而言,我们的锐度感知最小化(Sharpness-Aware Minimization,SAM)方法会寻找处于均匀低损失邻域的参数;该方案形成了一个可通过梯度下降高效求解的极小极大优化问题。实验结果表明,SAM在多种基准数据集(如CIFAR \$\{10,100\}\$、ImageNet、微调任务)和模型上均提升了泛化能力,并在多项任务中创造了最新最优性能。此外,我们发现SAM天然具备与专门针对噪声标签学习的最先进方法相当的标签噪声鲁棒性。代码已开源:https://github.com/google-research/sam。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理