AI知识 - 文章

[论文翻译]MARLIN: 面向面部视频表征学习的掩码自编码器

我们提出的框架名为MARLIN，是一种面部视频掩码自编码器，通过大量未标注的网络爬取面部视频学习高度鲁棒且通用的面部嵌入。作为一项具有挑战性的辅助任务，MARLIN从密集掩码的面部区域（主要包括眼睛、鼻子、嘴巴、嘴唇和皮肤）重建面部的时空细节，以捕捉局部和全局特征，从而帮助编码通用且可迁移的特征。

由 shadow发布于 2025-05-24 09:01:36 大模型AI知识自编码器阅读次数 438
[论文翻译]启发式解码：带前瞻启发式的受限文本生成

我们的方法在五项生成任务上超越了竞争基线，并在表格到文本生成(table-to-text generation)、受限机器翻译(constrained machine translation)和关键词约束生成(keyword-constrained generation)任务上取得了新的最先进(state-of-the-art)性能。在需要复杂约束满足的任务，以及少样本(few-shot)或零样本(zero-shot)设置下，改进尤为显著。

由 shadow发布于 2025-05-13 11:39:43 语言模型大型语言模型AI知识阅读次数 533
[论文翻译]患者轨迹预测：结合临床记录与Transformer模型

基于电子健康档案(EHR)预测疾病发展轨迹是一项复杂任务，主要面临数据非平稳性、医疗代码高颗粒度以及多模态数据整合等挑战。EHR既包含诊断代码等结构化数据，也包含临床记录等非结构化数据，后者常被忽视却蕴含关键信息。当前主要基于结构化数据的模型难以全面捕捉患者医疗背景，导致重要信息丢失。为解决这一问题，我们提出将非结构化临床记录整合到基于Transformer的深度学习模型中，用于序列化疾病预测。这种整合能丰富患者病史表征，从而提高诊断预测准确性。在MIMIC-IV数据集上的实验表明，该方法优于仅依赖结构化数据的传统模型。

由 shadow发布于 2025-05-10 15:51:41 私有大模型大模型AI知识阅读次数 572
[论文翻译]解决半监督图像分割中的类别不平衡问题：心脏MRI研究

摘要。由于数据不平衡且有限，半监督医学图像分割方法往往难以在某些特定尾部类别上取得优异性能。对这些特定类别的训练不足会为生成的伪标签引入更多噪声，从而影响整体学习效果。为缓解这一缺陷并识别表现欠佳的类别，我们提出维护一个记录训练过程中各类别性能的置信度数组。通过模糊融合这些置信度分数，我们能够自适应地在每个样本中优先考虑个体置信度指标，而非传统集成方法中为所有测试案例分配一组预定义固定权重的做法。此外，我们引入了鲁棒的类别级采样方法和动态稳定技术以优化训练策略。所提出的方法通过动态权重考量所有表现欠佳的类别，并尝试在训练过程中消除大部分噪声。在ACDC和MMWHS两个心脏MRI数据集上的评估表明，我们的方法展现出有效性和泛化能力，性能优于文献中多种最先进方法。

由 shadow发布于 2025-05-10 11:28:10 私有大模型大模型AI知识阅读次数 538
[论文翻译]基于特征上下文激励模块的X射线图像儿童腕部骨折检测

儿童在日常生活中常遭受手腕创伤，通常需要放射科医生分析解读X光影像后，再由外科医生进行手术治疗。随着深度学习的发展，神经网络可作为计算机辅助诊断(CAD)工具协助医生进行医学影像诊断。由于YOLOv8模型在目标检测任务中表现优异，该模型已被应用于多种骨折检测场景。本研究提出了四种特征上下文激励-YOLOv8(FCE-YOLOv8)模型变体，分别整合了不同的FCE模块(即Squeeze-and-Excitation(SE)、Global Context(GC)、Gather-Excite(GE)和Gaussian Context Transformer(GCT)模块)以提升模型性能。

由 shadow发布于 2025-05-10 09:21:00 私有大模型大模型AI知识阅读次数 544
[论文翻译]医学图像无监督异常检测与定位的受限对比分布学习

摘要。无监督异常检测 (UAD) 通过仅使用正常 (即健康) 图像训练单分类器，来检测不符合预期正常模式的任何异常 (即不健康) 样本。与全监督方法相比，UAD 具有两大优势：首先，它能直接利用健康筛查项目中包含大量正常图像样本的大规模数据集，避免了异常样本的高成本人工标注以及后续极端类别不平衡数据训练带来的问题；其次，UAD 方法有望检测并定位任何偏离正常模式的病变类型。UAD 方法面临的关键挑战在于如何学习有效的低维图像表示来检测和定位通常由微小病灶组成的细微异常。为此，我们提出了一种新型自监督表征学习方法——基于约束对比分布的异常检测学习 (CCD)，该方法通过结合对比学习与前置约束，同时预测增强数据分布和图像上下文，从而学习细粒度特征表示。这些学习到的表征可用于训练对异常更敏感的检测模型。大量实验结果表明，在三种不同的结肠镜和眼底筛查数据集上，我们的方法优于当前最先进的 UAD 方案。代码已开源：https://github.com/tianyu0207/CCD。

由 shadow发布于 2025-05-10 08:45:08 大模型私有大模型AI知识阅读次数 565
[论文翻译]结肠镜图像中息肉和内镜器械分割的迁移学习

结直肠癌是全球致死率最高且最普遍的癌症类型之一。结肠镜检查是用于检测和诊断结肠息肉的手术，但目前的检出率存在显著误差，影响诊断和治疗。自动图像分割算法可帮助医生提高结肠病理息肉的检出率。此外，在结肠镜检查图像中分割内窥镜工具有助于机器人辅助手术。本研究同时使用了预训练和非预训练的分割模型，在两个不同数据集（包含息肉和内窥镜工具图像）上进行了训练与验证，最终在两个独立测试集上应用模型。

由 shadow发布于 2025-05-09 17:25:11 私有大模型大模型AI知识阅读次数 482
[论文翻译]基于HYBRIDYOLO-SAM 2模型的结肠镜息肉自提示分割方法

结肠镜检查中息肉的早期诊断和治疗对于降低结直肠癌(CRC)的发病率和死亡率至关重要。然而，息肉特征的多样性以及结肠镜图像和视频中伪影的存在，为准确高效的息肉检测和分割带来了重大挑战。本文提出了一种新颖的息肉分割方法，通过将Segment Anything Model(SAM 2)与YOLOv8模型相结合。我们的方法利用YOLOv8的边界框预测自主生成SAM 2的输入提示，从而减少人工标注的需求。我们在五个结肠镜图像基准数据集和两个结肠镜视频数据集上进行了详尽测试，结果表明我们的方法在图像和视频分割任务中均超越了现有最优模型。值得注意的是，我们的方法仅使用边界框标注就能实现高分割精度，显著减少了标注时间和工作量。这一进展有望提高临床环境中息肉检测的效率和可扩展性https://github.com/sajjad-sh33/YOLO_SAM2。

由 shadow发布于 2025-05-09 17:14:42 大模型私有大模型AI知识阅读次数 533
[论文翻译]DCSAU-Net: 用于医学图像分割的更深更紧凑的分割注意力U-Net

采用卷积神经网络 (CNN) 的深度学习架构在计算机视觉领域取得了卓越成就。其中基于CNN构建的编码器-解码器结构U-Net，在生物医学图像分割领域实现重大突破，并广泛应用于实际场景。然而，U-Net编码器部分各下采样层的均等设计及简单的卷积堆叠结构，使其难以充分提取不同深度的特征信息。随着医学图像复杂度的提升，现有方法面临新的挑战。本文提出更深层、更紧凑的分裂注意力U型网络 (DCSAU-Net)，通过两个创新框架——基础特征保留机制和紧凑分裂注意力模块，实现了对低层级与高层级语义信息的高效利用。我们在CVC-ClinicDB、2018 Data Science Bowl、ISIC-2018和SegPC-2021数据集上评估模型性能，结果表明DCSAU-Net在平均交并比 (mIoU) 和F1分数指标上均优于其他前沿方法。尤为重要的是，该模型在复杂图像上展现出优异的分割性能。相关工作代码及技术细节详见 https://github.com/xq141839/DCSAU-Net。

由 shadow发布于 2025-05-09 16:56:14 私有大模型大模型AI知识阅读次数 514
[论文翻译]BTS: 桥接文本与声音模态的元数据辅助呼吸音分类

呼吸音分类(RSC)由于声学特征差异大而具有挑战性，主要受患者人口统计数据和录音环境影响。为解决这一问题，我们提出一种利用呼吸音元数据的文本-音频多模态模型，为RSC提供有效的补充信息。具体而言，我们使用来自音频样本元数据的自由文本描述(包括患者性别年龄、录音设备类型及身体录音部位)对预训练的文本-音频多模态模型进行微调。我们的方法在ICBHI数据集上取得了最先进的性能，以1.17%的显著优势超越之前的最佳结果。这一结果验证了利用元数据和呼吸音样本提升RSC性能的有效性。此外，我们还研究了元数据部分缺失(可能发生在真实临床环境中)时的模型表现。

由 shadow发布于 2025-05-09 15:42:14 大模型私有大模型AI知识阅读次数 580
[论文翻译]nnFormer: 基于3D Transformer的医学图像体积分割

摘要— Transformer作为自然语言处理的首选模型，在医学影像领域却鲜有关注。鉴于其捕捉长程依赖关系的能力，Transformer有望帮助非典型卷积神经网络克服其固有的空间归纳偏置缺陷。然而，近期多数基于Transformer的分割方法仅将其作为辅助模块，用于将全局上下文编码到卷积表示中。为此，我们提出了nnFormer（即"非另一种Transformer"），这是一种用于三维医学图像分割的Transformer架构。nnFormer不仅融合了交错卷积与自注意力操作，还引入了基于局部和全局体素的自注意力机制来学习体积表征。此外，nnFormer创新性地采用跳跃注意力机制，取代了类似U-Net架构中跳跃连接传统的拼接/求和操作。实验表明，在三个公开数据集上，nnFormer以显著优势超越了此前基于Transformer的方法。与nnUNet相比，nnFormer在HD95指标上显著更优，DSC结果则相当。我们进一步证明，nnFormer与nnUNet在模型集成中具有高度互补性。nnFormer的代码与模型已开源：https://git.io/JSf3i。

由 shadow发布于 2025-05-09 14:07:27 私有大模型大模型AI知识阅读次数 704
[论文翻译]全尺度表征引导的视网膜血管分割网络

U-Net架构及其变体在过去十年中一直是视网膜血管分割领域的最先进(SOTA)技术。本研究提出全尺度引导网络(FSG-Net)，其中采用现代化卷积块的特征表示网络提取全尺度信息，引导卷积块则对这些信息进行精炼。在引导卷积块中引入注意力引导滤波器，其原理是该滤波器的行为类似于非锐化掩模滤波器。将全尺度信息传递至注意力块可以生成改进的注意力图，这些注意力图随后被传递至注意力引导滤波器，从而提升分割网络的性能。引导卷积块之前的结构可替换为任何U-Net变体，这增强了所提方法的可扩展性。为公平比较，我们重新实现了公开代码库中的近期研究，以评估其可扩展性和可复现性。实验表明，与当前SOTA模型相比，所提网络在多个公开数据集上展现出具有竞争力的结果。消融研究证明，所提模型在参数量显著减小的情况下仍具竞争力。最后，通过将所提模型应用于面部皱纹分割，我们验证了其向其他领域类似任务扩展的潜力。代码已开源：https://github.com/ZombaSY/FSG-Net-pytorch。

由 shadow发布于 2025-05-08 17:09:56 大模型私有大模型AI知识阅读次数 559
[论文翻译]U-Net: 用于生物医学图像分割的卷积网络

摘要。人们普遍认为，深度网络的训练成功需要成千上万的标注训练样本。本文提出了一种网络及训练策略，通过充分利用数据增强技术来更高效地利用现有标注样本。该架构包含捕捉上下文的收缩路径和实现精确定位的对称扩展路径。我们证明，这种网络可以从极少量图像端到端训练，并在ISBI电子显微镜堆栈神经元结构分割挑战中超越了先前最佳方法（滑动窗口卷积网络）。使用相同网络在透射光学显微镜图像（相差干涉和DIC）上训练后，我们以显著优势赢得了2015年ISBI细胞追踪挑战赛相应类别。

由 shadow发布于 2025-05-08 15:58:11 私有大模型大模型AI知识阅读次数 595
[论文翻译]基于U-Net的循环残差卷积神经网络(R2U-Net)在医学图像分割中的应用

摘要—基于深度学习(DL)的语义分割方法在过去几年中一直保持着最先进的性能。具体而言，这些技术已成功应用于医学图像分类、分割和检测任务。其中U-Net已成为这些应用中最受欢迎的深度学习技术之一。本文提出了基于U-Net的循环卷积神经网络(RCNN)以及基于U-Net的循环残差卷积神经网络(RRCNN)，分别命名为RU-Net和R2U-Net。所提模型结合了U-Net、残差网络和RCNN的优势。这些新架构在分割任务中具有多重优势：首先，残差单元有助于训练深层架构；其次，通过循环残差卷积层实现特征累积，可为分割任务提供更好的特征表示；第三，在保持相同网络参数量的情况下，能设计出性能更优的U-Net架构用于医学图像分割。我们在三个基准数据集上测试了所提模型，包括视网膜血管分割、皮肤癌分割和肺部病变分割。实验结果表明，相较于U-Net和残差U-Net(ResU-Net)等同类模型，所提模型在分割任务中表现出更优越的性能。

由 shadow发布于 2025-05-08 15:28:52 私有大模型大模型AI知识阅读次数 710
[论文翻译] 基于特征金字塔与对比学习的自动睡眠分期

摘要—自动睡眠评分对睡眠障碍的诊断治疗及家庭环境下的长期睡眠监测至关重要。传统上，基于单通道脑电图(EEG)的学习型自动睡眠评分研究十分活跃，因为睡眠期间获取多通道信号较为困难。然而，从原始EEG信号中学习表征存在两大挑战：1)睡眠相关EEG模式会出现在不同的时间和频率尺度上；2)不同睡眠阶段具有相似的EEG模式。为此，我们提出了名为SleePyCo的深度学习框架，其包含两大核心组件：1)特征金字塔结构；2)用于自动睡眠评分的监督对比学习。针对特征金字塔，我们设计了SleePyCo-backbone主干网络来处理不同时空尺度下的多特征序列。监督对比学习通过最小化类内特征距离同时最大化类间特征距离，使网络能提取具有类别判别力的特征。在四个公开数据集上的对比实验表明，SleePyCo在单通道EEG基准上持续优于现有框架。大量消融实验证实，该框架在N1阶段与快速眼动(REM)阶段的区分度上表现尤为突出，整体性能显著提升。

由 shadow发布于 2025-04-26 15:54:13 AI知识大模型私有大模型阅读次数 582
[论文翻译]面向医学影像的多模态大语言模型参数高效微调

多模态大语言模型 (MLLM) 是对传统大语言模型能力的进化扩展，使其能够应对超越纯文本应用范围的挑战。它利用先前编码在这些语言模型中的知识，从而增强其在多模态领域的适用性和功能性。近期研究探索将MLLM作为通用解决方案，以生成式任务形式处理医学多模态问题。本文提出一种参数高效的MLLM微调框架，在医学视觉问答 (Med-VQA) 和医学报告生成 (MRG) 任务上使用公开基准数据集进行验证。我们还引入基于5级李克特量表及其加权平均值的评估指标，用于衡量MRG任务生成报告的质量，其中量表评分由人工标注和GPT-4模型共同完成。我们进一步评估了VQA和MRG任务在传统指标、GPT-4评分与人工评分之间的一致性。结果表明，使用GPT-4进行的语义相似性评估与人工标注高度吻合且稳定性更优，但与传统词汇相似性测量存在差异。这对词汇相似性指标在评估Med-VQA和报告生成任务中生成模型性能的可靠性提出了质疑。此外，我们的微调模型显著优于GPT-4v，这表明如GPT-4v等多模态模型未经额外微调时，在医学影像任务上表现不佳。代码将发布于：https://github.com/jinlHe/PeFoMed。

由 shadow发布于 2025-04-26 15:09:48 大模型私有大模型AI知识阅读次数 742
[论文翻译]填充K空间与优化图像：动态多对比MRI重建的提示方法

摘要。动态或多对比度磁共振成像(MRI)重建的关键在于探索帧间或对比度间的信息。当前，展开模型(unrolled model)作为将迭代MRI重建步骤与可学习神经网络层相结合的方法，已成为MRI重建中性能最佳的技术。然而该方法存在两个主要局限：首先，展开模型结构和GPU内存限制制约了网络中每个去噪模块的容量，阻碍了有效提取重建所需的细节特征；其次，现有模型缺乏适应输入变化的灵活性(如不同对比度、分辨率或扫描视角)，需要为每种输入类型单独训练模型，这种低效方式可能导致重建效果不足。本文提出两阶段MRI重建流程来解决这些问题。第一阶段通过物理驱动方式完成k空间缺失数据填充：首先构建利用相邻帧/对比度及通道注意力捕捉固有帧间相关性的高效基线模型，进而扩展为基于提示学习(prompt-based learning)的PromptMR框架，实现多视角、多对比度、多邻域类型及加速因子的统一重建。第二阶段将首阶段重建结果视为通用视频修复问题，在图像域进一步融合相邻帧/对比度特征。大量实验表明，本方法显著优于现有最先进的加速MRI重建技术。

由 shadow发布于 2025-04-26 11:18:18 私有大模型大模型AI知识阅读次数 564
[论文翻译] 基于大语言模型的可靠多模态问答

我们提出了一种用于多模态和检索增强问答 (QA) 的行动链 (Chain-of-Action, CoA) 框架。与现有研究相比，CoA 克服了当前 QA 应用的两大挑战：(i) 与实时或领域事实不符的虚假幻觉 (hallucination)；(ii) 对组合信息推理能力较弱。我们的核心贡献是一种新颖的推理-检索机制，通过系统提示和预设计动作将复杂问题分解为推理链。在方法论上，我们提出了三种可适应不同领域的"即插即用"动作，用于从异构源检索实时信息。此外，我们还提出多参考可信度评分 (multi-reference faith score, MRFS) 来验证和解决答案中的冲突。实证方面，我们通过公共基准测试和 Web3 案例研究证明了 CoA 相对于其他方法的优势。

由 shadow发布于 2025-04-25 09:25:38 私有大模型大模型AI知识阅读次数 740
[论文翻译]COCO-DR: 通过对比和分布鲁棒学习解决零样本密集检索中的分布偏移问题

我们提出了一种新的零样本密集检索(ZeroDR)方法COCO-DR，通过应对源训练任务与目标场景之间的分布偏移来提升密集检索的泛化能力。为减轻文档差异的影响，COCO-DR采用持续对比学习(COtinuous COtrastive learning)在目标语料上继续预训练语言模型以适应目标分布。针对未见过的目标查询，COCO-DR运用隐式分布鲁棒优化(iDRO)对不同源查询簇的样本进行重新加权，从而在微调阶段提升模型对罕见查询的鲁棒性。COCO-DR在零样本检索基准BEIR上取得了卓越的平均性能。

由 shadow发布于 2025-04-24 16:37:23 大模型私有大模型AI知识阅读次数 647
[论文翻译]检索即注意力：在单一Transformer中端到端学习检索与阅读

知识密集型任务（如开放域问答( QA )）的系统通常包含两个阶段：从大型语料库中高效检索相关文档，以及对所选文档进行细读以生成答案。检索器( retriever )和阅读器( reader )通常分别建模，这导致实现过程繁琐且难以以端到端方式进行训练和适配。本文重新审视这一设计，摒弃了分离的架构和训练方式，转而采用单一Transformer模型，通过注意力机制实现检索( Retrieval as Attention, ReAtt )，并仅基于最终QA任务的监督进行端到端训练。我们首次证明，端到端训练的单一模型可同时实现具有竞争力的检索和问答性能，匹配或略微超越当前最优的分离式训练检索器与阅读器。此外，端到端适配显著提升了模型在监督和无监督场景下对领域外数据集的性能，使其成为知识密集型任务的简洁且适应性强的解决方案。代码与模型详见https://github.com/jzbjyb/ReAtt。

由 shadow发布于 2025-04-24 10:41:47 AI知识大模型私有大模型阅读次数 531

创作中心

开启你的AI千集创作之旅

发布首篇内容，开通创作中心快来成为AI千集创作者吧～