[博客翻译]MiniGemini：挖掘多模态视觉语言模型的潜力

在这篇论文中，作者介绍了“迷你双子星（Mini-Gemini）”——一个增强多模态视觉语言模型（VLMs）的简单而有效的方法。尽管现有的VLMs在基本的视觉对话和推理方面有所进步，但它们的表现仍然落后于像GPT-4和Gemini这样的高级模型。为了缩小这一差距，研究者从三个方面挖掘VLMs的潜力，即：高分辨率视觉令牌、高质量数据和VLM引导的生成。他们提出使用额外的视觉编码器来提升高分辨率的视觉令牌，而不增加视觉令牌的数量，并构建了一个促进精确图像理解和基于推理的生成的高质量数据集，从而扩大了当前VLMs的操作范围。总体而言，Mini-Gemini进一步发掘了VLMs的潜力，同时赋予了现有框架图像理解、推理和生成的能力。该方法支持从2B到34B的一系列密集型和MoE大型语言模型（LLMs），并在多个零样本基准测试中表现出领先性能，甚至超越了一些专有模型。代码和模型可在提供的链接中获取。

[博客翻译]MiniGemini：挖掘多模态视觉语言模型的潜力

原文地址：https://arxiv.org/abs/2403.18814