AnchorWeave:基于检索到的局部空间记忆的全球一致性视频生成
在长时间范围内保持空间世界的一致性仍然是可由相机控制的视频生成中的一个核心挑战。现有的基于记忆的方法通常通过从历史中重建的几何形状渲染锚定视频来依赖于全局重建的3D场景进行生成。然而,从多个视角重建全局3D场景不可避免地会引入跨视角的错位,因为姿态和深度估计误差会导致相同的表面在不同视角中被重建到略微不同的3D位置。当融合时,这些不一致性会积累成噪声几何形状,污染了条件信号并降低了生成质量。我们引入了AnchorWeave,这是一个记忆增强的视频生成框架,它用多个干净的局部几何记忆替换了单个错位的全局记忆,并学会了调和它们跨视角的不一致性。为此,AnchorWeave在生成过程中执行与目标轨迹对齐的覆盖驱动局部记忆检索,并通过多锚点编织控制器整合所选的局部记忆。大量的实验表明,AnchorWeave在保持强大视觉质量的同时,显著提高了长期场景的一致性,消融和分析研究进一步验证了局部几何条件、多锚点控制和覆盖驱动检索的有效性。
赞
评论
请
登录后发表观点
