• [论文翻译]TMCIR: Token Merge提升组合图像检索

    为解决这一挑战,我们提出TMCIR框架,通过两项关键创新推动组合图像检索发展:1) 意图感知跨模态对齐。我们首先使用扩散模型根据参考图像和文本描述合成的意图反映伪目标图像,以对比学习方式微调CLIP编码器。这一步骤增强了文本编码器捕捉文本描述中细微意图的能力。2) 自适应Token融合。我们通过将自适应Token融合特征与目标图像进行对比,进一步以对比学习方式微调所有编码器。该机制在对比学习流程中动态平衡视觉与文本表示,优化检索所需的组合特征。在Fashion-IQ和CIRR数据集上的大量实验表明,TMCIR显著优于现有最优方法,尤其在捕捉用户细微意图方面表现突出。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理