# BEVLM:将LLMs的语义知识蒸馏到鸟瞰图表示中 ## 摘要 鸟瞰图(BEV)表示因其。.
大型语言模型(LLMs)在自动驾驶中的整合因其强大的推理和语义理解能力而吸引了越来越多的关注,这些能力对处理复杂决策和长尾场景至关重要。然而,现有方法通常独立地向LLMs输入多视角和多帧图像的标记,导致冗余计算和空间一致性受限。视觉处理中的这种分离妨碍了准确的三维空间推理,无法在视角之间保持几何一致性。另一方面,从几何标注任务(例如目标检测)学习的鸟瞰图(BEV)表示提供了空间结构,但缺乏基础视觉编码器的语义丰富性。为了弥补这一差距,我们提出了BEVLM,一个将空间一致且语义精馏的BEV表示与LLMs相连接的框架。通过大量实验,我们展示了BEVLM使LLMs能够在跨视角驾驶场景中更有效地进行推理,利用BEV特征作为统一输入,准确性提高了46%。此外,通过将LLMs的语义知识精馏到BEV表示中,BEVLM在安全关键情景中将闭环端到端驾驶性能显著提高了29%。
赞
评论
请
登录后发表观点
