[论文翻译]FG-CLIP: 细粒度视觉与文本对齐
对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP) 在图文检索和零样本分类等多模态任务中表现出色,但由于其关注粗粒度的简短描述,在细粒度理解方面存在不足。为此,我们提出细粒度CLIP (Fine-Grained CLIP, FGCLIP),通过三项关键创新提升细粒度理解能力。首先,我们利用大语言模型生成16亿条长描述-图像对,以捕捉全局语义细节。其次,构建包含1200万张图像和4000万个与详细描述对齐的区域特定边界框的高质量数据集,确保精确且上下文丰富的表征。第三,引入1000万个困难细粒度负样本,提升模型区分细微语义差异的能力。通过整合高质量区域标注与困难负样本,我们构建了名为FineHARD的综合数据集,并针对这些数据精心设计了相应训练方法。大量实验表明,FG-CLIP在细粒度理解、开放词汇目标检测、图文检索及通用多模态基准测试等下游任务中均优于原始CLIP及其他先进方法。这些结果印证了FG-CLIP在捕捉图像细粒度细节和提升整体模型性能方面的有效性。数据、代码和模型已开源:https://github.com/360CVGroup/FG-CLIP。