无论是希望在好莱坞崭露头角的电影制作人,还是享受为观众制作视频的创作者,我们都相信每个人都应该能够使用有助于增强创造力的工具。今天,我们非常高兴推出Meta Movie Gen——这一突破性的媒体生成AI研究,其中包括图像、视频和音频等多种模态。我们的最新研究表明如何通过简单的文本输入来生成自定义视频和声音,编辑现有视频,以及将个人图像转换成独特的视频。根据人类评估,Movie Gen 在这些任务上超越了行业内的类似模型。
这项工作是我们长期且有实绩的向社区分享基础AI研究成果的一部分。我们的生成AI初期研究从Make-A-Scene 系列模型开始,使创建 图像、音频、视频 和 3D 动画 成为可能。随着扩散模型的出现,我们有了第二波的工作,其中包括 Llama Image 基础模型,这使得生成高质量的 图像 和 视频 以及 图像编辑 成为可能。Movie Gen 是我们的第三波成果,结合了所有这些模态,并以前所未有的方式提供了更细粒度的控制,从而使使用这些模型的人获益。与前几代一样,我们预计这些模型将催生各种新产品,以促进创意的发展。
尽管这些基础模型有许多令人兴奋的应用案例,但重要的是要指出,生成AI并不是艺术家和动画师工作的替代品。我们分享这些研究成果是因为我们相信这种技术的力量,能帮助人们以新的方式表达自己,并为那些本来可能没有机会的人提供机会。我们希望有一天,每个人都能有机会通过Movie Gen 将他们的艺术愿景变为现实,并创作高清晰度的视频和音频。
背后的秘密
作为最先进的沉浸式叙事模型套件,Movie Gen具有四项功能:视频生成、个性化视频生成、精确视频编辑和音频生成。我们使用许可数据集和公开可用的数据集训练这些模型。虽然我们在研究论文 中将分享更多的技术细节,但我们很高兴地在此博客文章中介绍每个功能的表现。
视频生成
根据给定的文本提示,我们可以利用一个已针对文本转图像和文本转视频进行优化的联合模型,来创建高质量的图像和视频。这个300亿参数的Transformer 模型能够以每秒16帧的速度生成长达16秒的视频。我们发现这些模型可以理解物体运动、主体间互动以及摄像机运动,并且能够学习多种概念下的合理动作,使其成为同类模型中的佼佼者。
个性化视频
我们还扩展了上述基础模型,以支持个性化视频生成