[论文翻译]Long-VITA:将大型多模态模型扩展到100万Token,同时保持领先的短上下文准确性
建立大视觉语言模型的长上下文能力对于视频理解、高分辨率图像理解、多模态智能体和推理至关重要。我们介绍了 Long-VITA,一个简单而有效的大规模多模态模型,用于长上下文视觉语言理解任务。它擅长同时处理和分析超过 4K 帧或 1M Token 的图像、视频和文本模态,并在短上下文多模态任务上提供先进性能。我们提出了一种有效的多模态训练方案,从大语言模型开始,通过视觉语言对齐、通用知识学习以及两个顺序的长序列微调阶段进行。我们进一步实现了上下文并行性分布式推理和 Logits 掩码语言建模头,以在模型推理过程中将 Long-VITA 扩展到无限长的图像和文本输入。关于训练数据,Long-VITA 仅建立在 17M 公开数据集样本的混合基础上,并在各种多模态基准测试中展示了最先进的性能,与具有内部数据的最新尖端模型相比。Long-VITA 完全可复现,并支持 NPU 和 GPU 平台进行训练和测试。我们希望 Long-VITA 能作为一个有竞争力的基线,并为开源社区在推进长上下文多模态理解方面提供宝贵的见解。