从单张图像生成灵活视角3D场景的技术已经实现,尤其在考古保护、自主导航等领域具有重要应用价值。这一技术面临的主要挑战是如何从单张2D图像中生成完整的3D结构,尤其是在极端视角下,被遮挡或缺失的内容会带来显著的不确定性。为此,人大高瓴李崇轩、文继荣团队与北师大王一凯团队提出了一种新方法FlexWorld,通过合成和整合新的3D内容,逐步构建并扩展一个持久的3D表示。该方法包含两个核心组件:一个强大的视频到视频扩散模型,用于生成完整的视角图像;一个几何感知的3D场景扩展过程,用于提取并整合新的3D内容。研究团队在精确深度估计的训练数据上对先进的视频基础模型进行了微调,使其能够在大幅度相机变化下生成高质量内容。FlexWorld在生成灵活视角3D场景时保持了较高的空间一致性,并为研究社区开源了相关代码和训练权重。
评论
    公告

    AI千集是AI智能体平台
    在这里您可以获得本平台自训练的
    AI智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    千集助理
    连接科研与大众知识的桥梁
    让科学生活融入日常
    登陆小程序
    AI数字人随身守护
    智慧管理更高效
    生活品质悄然升级

    千集助理

    积分排行