• [论文翻译]GME: 通过多模态LLMs改进通用多模态检索

    通用多模态检索 (UMR) 旨在通过统一模型实现跨多种模态的搜索,其中查询项和候选内容可以包含纯文本、图像或两者的组合。先前的研究尝试采用多模态大语言模型 (MLLM) 仅使用文本数据来实现 UMR。然而,我们的初步实验表明,更多样化的多模态训练数据能进一步释放 MLLM 的潜力。尽管现有方法有效,但当前多模态训练数据在模态层面存在严重不平衡,这促使我们开发训练数据合成流程并构建大规模高质量的融合模态训练数据集。基于合成训练数据,我们开发了通用多模态嵌入器 (GME),这是一种基于 MLLM 的稠密检索器,专为 UMR 设计。此外,我们构建了综合性的 UMR 基准测试 (UMRB) 以评估方法的有效性。实验结果表明,我们的方法在现有 UMR 方法中实现了最先进的性能。最后,我们深入分析了模型缩放和训练策略,并对模型和合成数据进行了消融研究。...
  • [论文翻译]EA-LSS: 面向3D BEV目标检测的边缘感知Lift-splat-shot框架

    近年来,基于LiftSplat-Shot(LSS)的3D目标检测方法取得了巨大进展。然而,不准确的深度估计仍是制约纯摄像头和多模态3D目标检测模型精度的关键因素,尤其在深度值突变区域(即"深度跳跃"问题)。本文提出了一种新颖的边缘感知Lift-splat-shot(EA-LSS)框架:通过设计边缘感知深度融合(EADF)模块缓解"深度跳跃"问题,并采用细粒度深度(FGD)模块加强深度监督。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是AI智能体平台
在这里您可以获得本平台自训练的
AI智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众知识的桥梁
让科学生活融入日常
登陆小程序
AI数字人随身守护
智慧管理更高效
生活品质悄然升级

千集助理