视觉与语言研究大多聚焦于少量但多样化的独立任务及其配套数据集，这些任务通常被孤立研究。然而，成功完成这些任务所需的视觉基础语言理解技能存在显著重叠。本研究通过构建大规模多任务训练体系，探索视觉与语言任务间的关联性。我们的方法最终在四大类任务（视觉问答、基于描述的图像检索、指代表达式定位和多模态验证）的12个数据集上实现了单一模型统一。与独立训练的单任务模型相比，该模型将参数量从约30亿缩减至2.7亿，同时平均任务性能提升2.05分。我们利用该多任务框架深入分析联合训练多样化任务的效果，并证明基于统一多任务模型微调特定任务模型可带来额外性能提升，达到或超越当前最优水平。

[论文翻译]Intern Video: 基于生成式与判别式学习的通用视频基础模型

基础模型最近在计算机视觉的多种下游任务中展现出卓越性能。然而，现有视觉基础模型大多仅关注图像级预训练与适配，难以应对动态复杂的视频级理解任务。为此，我们通过融合生成式 (generative) 与判别式 (discriminative) 自监督视频学习，提出通用视频基础模型InternVideo。具体而言，该模型以掩码视频建模和视频-语言对比学习作为预训练目标，并通过可学习机制选择性协调这两个互补框架的视频表征，从而提升多样化视频应用性能。在不引入额外技巧的情况下，InternVideo在39个视频数据集上实现了最先进性能，涵盖视频动作识别/检测、视频-语言对齐及开放世界视频应用等广泛任务。特别是在Kinetics-400和Something-Something V2基准测试中，我们的方法分别取得了91.1%和77.2%的top-1准确率。这些结果有力证明了InternVideo在视频理解领域的通用性。代码将在https://github.com/OpenGVLab/InternVideo发布。

由 shadow发布于 2025-05-21 15:37:48 视觉基础模型私有大模型阅读次数 941

[论文翻译]12合1：多任务视觉与语言表征学习

[论文翻译]Intern Video: 基于生成式与判别式学习的通用视频基础模型