[论文翻译]XrayGPT: 基于大型医疗视觉-语言模型的胸片报告摘要
大视觉语言模型(如Bard和GPT-4)的最新突破展现了执行广泛任务的非凡能力。这类模型基于包含数十亿公开图文对的大规模数据集进行训练,涵盖多样任务。然而,由于对生物医学图像理解的不足,它们在特定领域任务(如放射学)上的表现仍有待研究且可能受限。另一方面,对话式医疗模型虽已取得显著成功,但主要集中于基于文本的分析。本文提出XrayGPT,一种新型对话式医疗视觉语言模型,能够分析并回答关于胸部X光片的开放式问题。具体而言,我们通过简单线性变换将医学视觉编码器(MedClip)与微调后的大语言模型(Vicuna)对齐。这种对齐使我们的模型具备基于对放射图像和医学领域知识的深刻理解的卓越视觉对话能力。为提升大语言模型在医疗场景中的表现,我们从自由文本放射报告中生成217k条交互式高质量摘要,这些摘要通过微调过程增强模型性能。我们的方法为推进胸部X光片自动分析研究开辟了新途径。开源演示、模型及指令集详见:https://github.com/mbzuai-oryx/XrayGPT