多模态提示检索 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]生成式视觉问答的多模态提示检索

Multimodal Prompt Retrieval for Generative Visual Question Answering 生成式视觉问答的多模态提示检索 Timothy Ossowski1, Junjie $\mathbf{H}\mathbf{u}^{1,2}$ 1 Department of Computer Science, 2 Department of Biostatistics and Medical Informatics University of Wisconsin, M... 近年来，预训练视觉语言模型在知识密集型任务（如视觉问答 (VQA)）上取得了显著成果。尽管VQA领域近期有所进展，现有方法主要采用判别式框架，即在预定义标签集内预测答案，这容易导致在标注数据有限的低资源领域（如医学）过拟合，并在跨数据集领域迁移时泛化能力较差。为解决这一局限，我们提出一种通过多模态提示检索 (MPR) 增强的生成式模型，该模型整合检索到的提示和多模态特征以生成自由文本答案。我们的生成式模型能够快速实现零样本数据集适配，适应未见过的数据分布和跨数据集的开放集答案标签。在医学VQA任务上的实验表明，在少样本领域适应场景下，MPR比非检索版本模型的准确率最高提升30%。[20]

由 147****6943发布于 2025-04-15 19:08:15 视觉语言模型多模态提示检索阅读次数 925