[论文翻译]TMCIR: Token Merge提升组合图像检索

为解决这一挑战，我们提出TMCIR框架，通过两项关键创新推动组合图像检索发展：1) 意图感知跨模态对齐。我们首先使用扩散模型根据参考图像和文本描述合成的意图反映伪目标图像，以对比学习方式微调CLIP编码器。这一步骤增强了文本编码器捕捉文本描述中细微意图的能力。2) 自适应Token融合。我们通过将自适应Token融合特征与目标图像进行对比，进一步以对比学习方式微调所有编码器。该机制在对比学习流程中动态平衡视觉与文本表示，优化检索所需的组合特征。在Fashion-IQ和CIRR数据集上的大量实验表明，TMCIR显著优于现有最优方法，尤其在捕捉用户细微意图方面表现突出。