[博客翻译]MiniGemini：挖掘多模态视觉语言模型的潜力

在这篇论文中，作者介绍了“迷你双子星（Mini-Gemini）”——一个增强多模态视觉语言模型（VLMs）的简单而有效的方法。尽管现有的VLMs在基本的视觉对话和推理方面有所进步，但它们的表现仍然落后于像GPT-4和Gemini这样的高级模型。为了缩小这一差距，研究者从三个方面挖掘VLMs的潜力，即：高分辨率视觉令牌、高质量数据和VLM引导的生成。他们提出使用额外的视觉编码器来提升高分辨率的视觉令牌，而不增加视觉令牌的数量，并构建了一个促进精确图像理解和基于推理的生成的高质量数据集，从而扩大了当前VLMs的...