[论文翻译]12合1:多任务视觉与语言表征学习
视觉与语言研究大多聚焦于少量但多样化的独立任务及其配套数据集,这些任务通常被孤立研究。然而,成功完成这些任务所需的视觉基础语言理解技能存在显著重叠。本研究通过构建大规模多任务训练体系,探索视觉与语言任务间的关联性。我们的方法最终在四大类任务(视觉问答、基于描述的图像检索、指代表达式定位和多模态验证)的12个数据集上实现了单一模型统一。与独立训练的单任务模型相比,该模型将参数量从约30亿缩减至2.7亿,同时平均任务性能提升2.05分。我们利用该多任务框架深入分析联合训练多样化任务的效果,并证明基于统一多任务模型微调特定任务模型可带来额外性能提升,达到或超越当前最优水平。