从单张图像生成灵活视角3D场景的技术已经实现,尤其在考古保护、自主导航等领域具有重要应用价值。这一技术面临的主要挑战是如何从单张2D图像中生成完整的3D结构,尤其是在极端视角下,被遮挡或缺失的内容会带来显著的不确定性。为此,人大高瓴李崇轩、文继荣团队与北师大王一凯团队提出了一种新方法FlexWorld,通过合成和整合新的3D内容,逐步构建并扩展一个持久的3D表示。该方法包含两个核心组件:一个强大的视频到视频扩散模型,用于生成完整的视角图像;一个几何感知的3D场景扩展过程,用于提取并整合新的3D内容。研究团队在精确深度估计的训练数据上对先进的视频基础模型进行了微调,使其能够在大幅度相机变化下生成高质量内容。FlexWorld在生成灵活视角3D场景时保持了较高的空间一致性,并为研究社区开源了相关代码和训练权重。
赞
评论
请
登录后发表观点

