2022生成模型进展盘点:9类生成模型代表作

资料仓库  收藏
0 / 1071

转自量子位 | 公众号 QbitAI

ChatGPT的出现,彻底将生成AI推向爆发。

但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——

图像、视频、代码、3D模型、音频、文本、科学知识……

尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta、DeepMind和谷歌等为核心,发了不少达到SOTA的模型。

这不,立刻有学者写了篇论文,对2022年新出现的主流生成模型进行了年终盘点。

一起来看看这两年间,各领域的AI生成模型进展究竟怎么样了。

9大生成模型,最新代表作是?

这篇论文将AI生成模型分成了9大类。

下图是2022年前后,在生成效果上达到最优的模型总览:

除了谷歌LaMDA和Muse以外,所有模型均为2022年发布。

其中,谷歌LaMDA虽然是2021年发布的,但在2022年又爆火了一波;Muse则是2023年刚发布的,但论文声称自己在图像生成性能上达到SOTA,因此也统计了进去。

文本-图像生成

这方面的代表作有DALL-E2、Stable Diffusion、Imagen、Muse。

DALL·E2是来自OpenAI的生成模型,在零样本学习上做出大突破。与DALL·E一样,两点依旧是CLIP模型,除了训练数据庞大,CLIP基于Transformer对图像块建模,并采用对比学习训练,最终帮助DALL·E2取得了不错的生成效果。

下图是DALL·E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴犬”生成的图像:

Imagen来自谷歌,基于Transformer模型搭建,其中语言模型在纯文本数据集上进行了预训练。Imagen增加了语言模型参数量,发现效果比提升扩散模型参数量更好。

下图是Imagen根据“一只可爱的柯基住在寿司做的房子里”生成的图像:

Stable Diffusion由慕尼黑大学的CompVis小组开发,基于潜在扩散模型打造,这个扩散模型可以通过在潜表示空间中迭代去噪以生成图像,并将结果解码成完整图像。

Muse由谷歌开发,基于Transformer模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比Stable Diffusion1.4版本快3倍,比Imagen-3B和Parti-3B快10倍。

下图是Muse与DALL·E2和Imagen的生成效果对比:

文本-3D模型生成

主要代表作有Dreamfusion、Magic3D。(这里没有把OpenAI的Point·E统计进去,可能是生成效果上没有达到SOTA)

DreamFusion由谷歌和UC伯克利开发,基于预训练文本-2D图像扩散模型实现文本生成3D模型。采用类似NeRF的三维场景参数化定义映射,无需任何3D数据或修改扩散模型,就能实现文本生成3D图像的效果。

下图是DreamFusion生成“穿夹克的松鼠”3D效果:

Magic3D由英伟达开发,旨在缩短DreamFusion图像生成时间、同时提升生成质量。具体来说,Magic3D可以在40分钟内创建高质量3D网格模型,比DreamFusion快2倍,同时实现了更高分辨率,并在人类评估中以61.7%的比率超过DreamFusion。

图像-文本模型生成

主要代表作有Flamingo、VisualGPT。

Flamingo是DeepMind推出的小样本学习模型,基于可以分析视觉场景的视觉模型和执行基本推理的大语言模型打造,其中大语言模型基于文本数据集训练。输入带有图像或视频的问题后,模型会自动输出一段文本作为回答。

VisualGPT是OpenAI制作的图像-文本模型,基于预训练GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。

文本-视频模型生成

主要代表作有Phenaki、Soundify。

Phenaki由谷歌打造,基于新的编解码器架构C-ViViT将视频压缩为离散嵌入,能够在时空两个维度上压缩视频,在时间上保持自回归的同时,还能自回归生成任意长度的视频。

Soundify是Runway开发的一个系统,目的是将声音效果与视频进行匹配,即制作音效。具体包括分类、同步和混合三个模块,首先模型通过对声音进行分类,将效果与视频匹配,随后将效果与每一帧进行比较,插入对应的音效。

文本-音频模型生成

主要代表作有AudioLM、Jukebox、Whisper。

AudioLM由谷歌开发,将输入音频映射到一系列离散标记中,并将音频生成转换成语言建模任务,学会基于提示词产生自然连贯的音色。在人类评估中,认为它是人类语音的占51.2%、与合成语音比率接近,说明合成效果接近真人。

Jukebox由OpenAI开发的音乐模型,可生成带有唱词的音乐。通过分层VQ-VAE体系将音频压缩到离散空间中,损失函数被设计为保留最大量信息,用于解决AI难以学习音频中的高级特征的问题。不过目前模型仍然局限于英语。

Whisper由OpenAI开发,实现了多语言语音识别、翻译和语言识别,目前模型已经开源并可以用pip安装。模型基于68万小时标记音频数据训练,包括录音、扬声器、语音音频等,确保由人而非AI生成。

文本-文本模型生成

主要代表作有ChatGPT、LaMDA、PPER、Speech From Brain。

**Cha