[论文翻译]GME: 通过多模态LLMs改进通用多模态检索

通用多模态检索 (UMR) 旨在通过统一模型实现跨多种模态的搜索，其中查询项和候选内容可以包含纯文本、图像或两者的组合。先前的研究尝试采用多模态大语言模型 (MLLM) 仅使用文本数据来实现 UMR。然而，我们的初步实验表明，更多样化的多模态训练数据能进一步释放 MLLM 的潜力。尽管现有方法有效，但当前多模态训练数据在模态层面存在严重不平衡，这促使我们开发训练数据合成流程并构建大规模高质量的融合模态训练数据集。基于合成训练数据，我们开发了通用多模态嵌入器 (GME)，这是一种基于 MLLM 的稠密检索器，专为 UMR 设计。此外，我们构建了综合性的 UMR 基准测试 (UMRB) 以评估方法的有效性。实验结果表明，我们的方法在现有 UMR 方法中实现了最先进的性能。最后，我们深入分析了模型缩放和训练策略，并对模型和合成数据进行了消融研究。...

由 icodebase发布于 2025-10-11 17:08:36 多模态GME多模态检索阅读次数 519

[论文翻译]EA-LSS: 面向3D BEV目标检测的边缘感知Lift-splat-shot框架

近年来，基于LiftSplat-Shot（LSS）的3D目标检测方法取得了巨大进展。然而，不准确的深度估计仍是制约纯摄像头和多模态3D目标检测模型精度的关键因素，尤其在深度值突变区域（即"深度跳跃"问题）。本文提出了一种新颖的边缘感知Lift-splat-shot（EA-LSS）框架：通过设计边缘感知深度融合（EADF）模块缓解"深度跳跃"问题，并采用细粒度深度（FGD）模块加强深度监督。