[博客翻译]Meta的人工智能:电影时代


原文地址:https://ai.meta.com/research/movie-gen/?_fb_noscript=1


无论是希望在好莱坞崭露头角的电影制作人,还是享受为观众制作视频的创作者,我们都相信每个人都应该能够使用有助于增强创造力的工具。今天,我们非常高兴推出Meta Movie Gen——这一突破性的媒体生成AI研究,其中包括图像、视频和音频等多种模态。我们的最新研究表明如何通过简单的文本输入来生成自定义视频和声音,编辑现有视频,以及将个人图像转换成独特的视频。根据人类评估,Movie Gen 在这些任务上超越了行业内的类似模型。

这项工作是我们长期且有实绩的向社区分享基础AI研究成果的一部分。我们的生成AI初期研究从Make-A-Scene 系列模型开始,使创建 图像音频视频3D 动画 成为可能。随着扩散模型的出现,我们有了第二波的工作,其中包括 Llama Image 基础模型,这使得生成高质量的 图像视频 以及 图像编辑 成为可能。Movie Gen 是我们的第三波成果,结合了所有这些模态,并以前所未有的方式提供了更细粒度的控制,从而使使用这些模型的人获益。与前几代一样,我们预计这些模型将催生各种新产品,以促进创意的发展。

尽管这些基础模型有许多令人兴奋的应用案例,但重要的是要指出,生成AI并不是艺术家和动画师工作的替代品。我们分享这些研究成果是因为我们相信这种技术的力量,能帮助人们以新的方式表达自己,并为那些本来可能没有机会的人提供机会。我们希望有一天,每个人都能有机会通过Movie Gen 将他们的艺术愿景变为现实,并创作高清晰度的视频和音频。

背后的秘密

作为最先进的沉浸式叙事模型套件,Movie Gen具有四项功能:视频生成、个性化视频生成、精确视频编辑和音频生成。我们使用许可数据集和公开可用的数据集训练这些模型。虽然我们在研究论文 中将分享更多的技术细节,但我们很高兴地在此博客文章中介绍每个功能的表现。

视频生成

根据给定的文本提示,我们可以利用一个已针对文本转图像和文本转视频进行优化的联合模型,来创建高质量的图像和视频。这个300亿参数的Transformer 模型能够以每秒16帧的速度生成长达16秒的视频。我们发现这些模型可以理解物体运动、主体间互动以及摄像机运动,并且能够学习多种概念下的合理动作,使其成为同类模型中的佼佼者。

个性化视频

我们还扩展了上述基础模型,以支持个性化视频生成。我们取一个人的照片并将其与文本提示结合起来,生成包含参考人的视频及丰富的视觉细节。我们的模型在创建保留人物身份和动作的个性化视频方面达到了最优水平。

精确视频编辑

同样基础模型的编辑变体同时接收视频和文本提示作为输入,以高精度执行任务,生成所需输出。它结合视频生成与高级图像编辑,进行局部编辑(如添加、删除或替换元素)以及全局更改(如背景或风格修改)。与传统工具需要专业技能或缺乏精度的生成方法不同,Movie Gen 保留原有内容,仅针对相关像素进行编辑。

音频生成

最后,我们训练了一个拥有130亿参数的音频生成模型,该模型可以接收视频和可选的文本提示,并生成最高45秒的高质量音频,包括环境音、音效( Foley )和乐器背景音乐——所有这些都与视频内容同步。进一步,我们引入了一种音频扩展技术,可以为任意长度的视频生成连贯的音频——总体上达到了音频质量、视频到音频对齐以及文本到音频对齐的最优性能。

结果

这些基础模型要求我们在架构、训练目标、数据策略、评估协议和推理优化等多方面推动技术革新。

下面,我们在四个功能上的A/B人类评估比较。正面净胜率对应于人类偏好我们的模型的结果而不是竞争对手的模型。更多详情和评价,请参阅我们的 论文


尽管我们今天分享的研究展示了未来应用的巨大潜力,我们也承认当前模型存在一些限制。值得注意的是,有很多优化可以进一步减少推理时间和提高模型的品质,通过进一步扩展规模。

未来的道路

当我们继续改进模型并朝着潜在的未来发布前进时,我们将与电影制作人和创作者紧密合作,整合他们的反馈。通过采取协作的方法,我们希望确保我们正在创建能帮助人们以新颖的方式提升其内在创造力的工具。设想一下,在 Reels 上分享一天的生活动画视频,并用文本提示进行编辑,或者为您的一位朋友创作定制的动画生日贺卡并通过WhatsApp 发送给他们。随着创造力和自我表达占据主导地位,可能性是无限的。