[论文翻译]多模态ChatGPT在医疗领域的应用:GPT-4V实验研究
本文对当前最先进的多模态大语言模型GPT-4V(即GPT-4 with Vision)在视觉问答(VQA)任务中的能力进行了批判性评估。我们通过病理学和放射学领域的11种模态(如显微镜、皮肤镜、X光、CT等)和十五个关注对象(脑、肝、肺等)的数据集,全面测试了GPT-4V在图像配对问题回答中的表现。我们的数据集涵盖了十六种不同类型的医学问题。在评估过程中,我们为GPT-4V设计了文本提示,指导其协同处理视觉与文本信息。实验准确率评分表明,当前版本的GPT-4V在回答诊断性医学问题时存在可靠性不足和准确率欠佳的问题,因此不建议将其应用于实际诊断场景。此外,我们总结了GPT-4V在医学VQA中表现出的七个独特维度,揭示了其在这一复杂领域的局限性。完整评估案例详见Github。