• [论文翻译]GME: 通过多模态LLMs改进通用多模态检索

    通用多模态检索 (UMR) 旨在通过统一模型实现跨多种模态的搜索,其中查询项和候选内容可以包含纯文本、图像或两者的组合。先前的研究尝试采用多模态大语言模型 (MLLM) 仅使用文本数据来实现 UMR。然而,我们的初步实验表明,更多样化的多模态训练数据能进一步释放 MLLM 的潜力。尽管现有方法有效,但当前多模态训练数据在模态层面存在严重不平衡,这促使我们开发训练数据合成流程并构建大规模高质量的融合模态训练数据集。基于合成训练数据,我们开发了通用多模态嵌入器 (GME),这是一种基于 MLLM 的稠密检索器,专为 UMR 设计。此外,我们构建了综合性的 UMR 基准测试 (UMRB) 以评估方法的有效性。实验结果表明,我们的方法在现有 UMR 方法中实现了最先进的性能。最后,我们深入分析了模型缩放和训练策略,并对模型和合成数据进行了消融研究。...
  • [论文翻译]DEMONSTRATE–SEARCH–PREDICT: 结合检索和语言模型的知识密集型 NLP

    检索增强的上下文学习已成为一种强大的方法,用于使用冻结的语言模型(LM)和检索模型(RM)处理知识密集型任务。现有工作将这些模型结合在简单的“检索-然后-读取”流程中,其中RM检索段落并将其插入LM提示中。为了充分发挥冻结LM和RM的潜力,我们提出了DEMONSTRATE–SEARCH–PREDICT(DSP)框架,该框架依赖于在LM和RM之间通过复杂的流程传递自然语言文本。DSP可以表达高级程序,这些程序引导流程感知的演示、搜索相关段落并生成基于事实的预测,系统地将问题分解为LM和RM可以更可靠处理的小型转换。我们编写了新颖的DSP程序,用于在开放域、多跳和对话环境中回答问题,在早期评估中确立了新的最先进的上下文学习结果,并分别相对于原始LM(GPT-3.5)、标准的检索-然后-读取流程和同时期的自问流程,实现了37-120%、8-39%和80-290%的相对增益。我们在https://github.com/stanfordnlp/dsp上发布了DSP。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是AI智能体平台
在这里您可以获得本平台自训练的
AI智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众知识的桥梁
让科学生活融入日常
登陆小程序
AI数字人随身守护
智慧管理更高效
生活品质悄然升级

千集助理