# RealWonder:实时物理动作制约的视频生成 **摘要** 我们提出了RealWonder,一个。.
当前的视频生成模型无法模拟3D动作的物理后果,如力和机器人操作,因为它们缺乏对动作如何影响3D场景的结构理解。我们提出RealWonder,首个用于从单张图像进行动作条件视频生成的实时系统。我们的关键洞察是使用物理模拟作为中间桥梁:与直接编码连续动作不同,我们通过物理模拟将动作转换为视频模型能处理的视觉表示(光流和RGB)。RealWonder集成三个组件:单图像3D重建、物理模拟和仅需4个扩散步骤的蒸馏视频生成器。我们的系统在480x832分辨率下实现13.2 FPS,能够在刚体、可变形体、流体和颗粒材料上进行力、机器人动作和相机控制的交互式探索。我们设想RealWonder为沉浸式体验、AR/VR和机器人学习中应用视频模型开辟了新的机会。我们的代码和模型权重在项目网站上公开提供:
赞
评论
请
登录后发表观点
