[论文翻译]LLaVA-Med: 一天内训练出用于生物医学的大语言视觉助手
对话式生成式AI(Generative AI)在赋能生物医学实践方面展现出巨大潜力,但现有研究主要集中于单模态文本。通过利用公共网络的数十亿图文对,多模态对话式AI已取得快速进展,然而这类通用领域视觉语言模型在理解和讨论生物医学图像方面仍显不足。本文提出一种高效训练视觉语言对话助手的方法,使其能够回答生物医学图像的开放式研究问题。核心思路是从PubMed Central提取大规模、广覆盖的生物医学图文数据集,利用GPT-4从图注自动生成开放式指令遵循数据,再通过新颖的课程学习方式微调通用领域视觉语言大模型。具体而言,模型先通过原始图文对学习生物医学术语对齐,再通过GPT-4生成的指令数据掌握开放式对话语义,模拟普通人逐步获取生物医学知识的过程。该方法仅需不到15小时(使用8块A100)即可训练出生物医学大语言视觉助手(LLaVA-Med)。LLaVA-Med展现出卓越的多模态对话能力,能遵循开放式指令协助解析生物医学图像。在三个标准生物医学视觉问答数据集上,微调后的LLaVA-Med在部分指标上超越了此前有监督的最先进方法。为促进生物医学多模态研究,我们将公开指令数据集和LLaVA-Med模型。