• [论文翻译]SegFormer 3D: 一种高效的3D医学图像分割Transformer

    基于视觉Transformer (ViT) 架构的采用标志着3D医学图像(MI)分割领域的重大进步,通过增强全局上下文理解能力超越了传统卷积神经网络(CNN)模型。尽管这一范式转变显著提升了3D分割性能,但最先进的架构需要极其庞大复杂的结构以及大规模计算资源进行训练和部署。此外,在医学影像常见的有限数据集场景下,更大规模的模型可能在模型泛化性和收敛性方面带来挑战。为应对这些问题并证明轻量级模型在3D医学影像中的重要研究价值,我们提出了SegFormer3D——一种在多层次体素特征上计算注意力的分层Transformer。该模型摒弃复杂解码器结构,采用全MLP解码器来聚合局部与全局注意力特征,从而生成高精度分割掩码。这种内存高效的Transformer通过紧凑设计保留了更大规模模型的性能特征。相比当前最优(SOTA)模型,SegFormer3D以参数减少33倍、GFLOPS降低13倍的显著优势,推动了3D医学图像分割的深度学习平民化。我们在Synapse、BRaTs和ACDC三个广泛使用的数据集上对SegFormer3D进行基准测试,均取得具有竞争力的结果。代码:https://github.com/OSUPCVLab/SegFormer3D.git
  • [论文翻译]对GPT-4V医学影像分析多模态能力的系统评估

    本研究对GPT-4V在医学图像分析中的多模态能力进行了评估,重点关注放射学报告生成、医学视觉问答和医学视觉定位三项代表性任务。针对每项任务,我们设计了一套提示词(prompt)来激发GPT-4V生成优质输出的能力。通过定量分析、人工评估和案例研究三种评估方式,实现了深入全面的性能评测。评估结果表明,GPT-4V在理解医学图像方面表现优异,能够生成高质量的放射学报告,并能有效回答关于医学图像的问题。同时发现其在医学视觉定位任务上的性能有待显著提升。此外,我们观察到定量分析与人工评估结果之间存在差异,这表明传统评估指标在评估GPT-4V等大语言模型性能时存在局限性,开发新的自动定量分析指标十分必要。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理