• [论文翻译]生成式视觉问答的多模态提示检索

    Multimodal Prompt Retrieval for Generative Visual Question Answering 生成式视觉问答的多模态提示检索 Timothy Ossowski1, Junjie $\mathbf{H}\mathbf{u}^{1,2}$ 1 Department of Computer Science, 2 Department of Biostatistics and Medical Informatics University of Wisconsin, M... 近年来,预训练视觉语言模型在知识密集型任务(如视觉问答 (VQA))上取得了显著成果。尽管VQA领域近期有所进展,现有方法主要采用判别式框架,即在预定义标签集内预测答案,这容易导致在标注数据有限的低资源领域(如医学)过拟合,并在跨数据集领域迁移时泛化能力较差。为解决这一局限,我们提出一种通过多模态提示检索 (MPR) 增强的生成式模型,该模型整合检索到的提示和多模态特征以生成自由文本答案。我们的生成式模型能够快速实现零样本数据集适配,适应未见过的数据分布和跨数据集的开放集答案标签。在医学VQA任务上的实验表明,在少样本领域适应场景下,MPR比非检索版本模型的准确率最高提升30%。[20]
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理