[论文翻译]Long-VITA：将大型多模态模型扩展到100万Token，同时保持领先的短上下文准确性

建立大视觉语言模型的长上下文能力对于视频理解、高分辨率图像理解、多模态智能体和推理至关重要。我们介绍了 Long-VITA，一个简单而有效的大规模多模态模型，用于长上下文视觉语言理解任务。它擅长同时处理和分析超过 4K 帧或 1M Token 的图像、视频和文本模态，并在短上下文多模态任务上提供先进性能。我们提出了一种有效的多模态训练方案，从大语言模型开始，通过视觉语言对齐、通用知识学习以及两个顺序的长序列微调阶段进行。我们进一步实现了上下文并行性分布式推理和 Logits 掩码语言建模头，以在模型推理过程中将 Long-VITA 扩展到无限长的图像和文本输入。关于训练数据，Long-VITA 仅建立在 17M 公开数据集样本的混合基础上，并在各种多模态基准测试中展示了最先进的性能，与具有内部数据的最新尖端模型相比。Long-VITA 完全可复现，并支持 NPU 和 GPU 平台进行训练和测试。我们希望 Long-VITA 能作为一个有竞争力的基线，并为开源社区在推进长上下文多模态理解方面提供宝贵的见解。

由 shadow发布于 2025-03-05 09:45:22 语言模型大语言模型长内容模型阅读次数 928