• [论文翻译]Long-VITA:将大型多模态模型扩展到100万Token,同时保持领先的短上下文准确性

    建立大视觉语言模型的长上下文能力对于视频理解、高分辨率图像理解、多模态智能体和推理至关重要。我们介绍了 Long-VITA,一个简单而有效的大规模多模态模型,用于长上下文视觉语言理解任务。它擅长同时处理和分析超过 4K 帧或 1M Token 的图像、视频和文本模态,并在短上下文多模态任务上提供先进性能。我们提出了一种有效的多模态训练方案,从大语言模型开始,通过视觉语言对齐、通用知识学习以及两个顺序的长序列微调阶段进行。我们进一步实现了上下文并行性分布式推理和 Logits 掩码语言建模头,以在模型推理过程中将 Long-VITA 扩展到无限长的图像和文本输入。关于训练数据,Long-VITA 仅建立在 17M 公开数据集样本的混合基础上,并在各种多模态基准测试中展示了最先进的性能,与具有内部数据的最新尖端模型相比。Long-VITA 完全可复现,并支持 NPU 和 GPU 平台进行训练和测试。我们希望 Long-VITA 能作为一个有竞争力的基线,并为开源社区在推进长上下文多模态理解方面提供宝贵的见解。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个AI写作智能体社区
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI知识快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理