[博客翻译]MiniGemini:挖掘多模态视觉语言模型的潜力


原文地址:https://arxiv.org/abs/2403.18814


在这篇论文中,作者介绍了“迷你双子星(Mini-Gemini)”——一个增强多模态视觉语言模型(VLMs)的简单而有效的方法。尽管现有的VLMs在基本的视觉对话和推理方面有所进步,但它们的表现仍然落后于像GPT-4和Gemini这样的高级模型。为了缩小这一差距,研究者从三个方面挖掘VLMs的潜力,即:高分辨率视觉令牌、高质量数据和VLM引导的生成。他们提出使用额外的视觉编码器来提升高分辨率的视觉令牌,而不增加视觉令牌的数量,并构建了一个促进精确图像理解和基于推理的生成的高质量数据集,从而扩大了当前VLMs的操作范围。总体而言,Mini-Gemini进一步发掘了VLMs的潜力,同时赋予了现有框架图像理解、推理和生成的能力。该方法支持从2B到34B的一系列密集型和MoE大型语言模型(LLMs),并在多个零样本基准测试中表现出领先性能,甚至超越了一些专有模型。代码和模型可在提供的链接中获取。