[论文翻译]MED-FLAMINGO: 多模态医学少样本学习模型
医学本质上是一个多领域交叉的学科,需要综合多种模态的信息。医学生成式视觉语言模型(VLM)在这一方向上迈出了第一步,并有望实现诸多激动人心的临床应用。然而,现有模型通常需要在下游大型数据集上进行微调,这在数据稀缺的医疗场景中构成重大限制,亟需能够实时从少量样本中学习的模型。为此,我们提出Med-Flamingo——一个适配医疗领域的多模态少样本学习模型。基于Open Flamingo-9B架构,我们继续使用来自医学出版物和教科书的配对及交错医学图文数据进行预训练。Med-Flamingo解锁了少样本生成式医学视觉问答(VQA)能力,我们在多个数据集上进行了评估,包括新构建的开放式USMLE风格视觉问题挑战集。此外,我们首次开展了生成式医学VQA的医生人工评估:通过交互式应用让医师审核问题并对生成结果进行盲评。Med-Flamingo将生成式医学VQA的临床医生评分最高提升20%,并首次实现多模态医学少样本适应(如诊疗依据生成)。我们在https://github.com/snap-stanford/med-flamingo发布了模型、代码和评估应用。