[论文翻译]多模态大语言模型综述
近期,以 GPT-4V 为代表的多模态大语言模型 (Multimodal Large Language Model, MLLM) 成为新兴研究热点,其利用强大的大语言模型作为核心处理多模态任务。MLLM 展现的传统多模态方法罕见的涌现能力(例如基于图像创作故事、无需 OCR 的数学推理),暗示了通往通用人工智能的潜在路径。为此,学术界与产业界竞相开发媲美甚至超越 GPT-4V 的 MLLM,以惊人速度推进研究边界。本文系统梳理并总结了 MLLM 的最新进展:首先阐述其基本框架,解析架构、训练策略与数据、评估等核心概念;随后探讨如何扩展 MLLM 以支持更细粒度模态、更多语言和场景的研究主题;继而分析多模态幻觉问题及多模态上下文学习 (M-ICL)、多模态思维链 (M-CoT)、大语言模型辅助视觉推理 (LAVR) 等延伸技术;最后讨论现存挑战并指出未来研究方向。鉴于 MLLM 时代刚刚开启,我们将持续更新本综述,希望激发更多研究。相关 GitHub 链接持续收录最新论文:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models。