概述
基于去噪的生成模型,如扩散模型和基于流的模型,在生成高维视觉数据方面一直是可扩展的方法。最近的工作开始探索扩散模型作为表示学习器的应用;其核心思想是这些模型的隐状态可以捕获有意义、具有区分性的特征。
我们发现训练扩散模型的主要挑战在于需要学习高质量的内部表示。具体来说,我们展示了:
当扩散模型得到另一个模型(如自监督视觉编码器)提供的外部高质量表示支持时,其生成性能可以显著提升。
特别是,我们引入了表示对齐(REPA),这是一种基于近期扩散变压器架构的简单正则化技术。本质上,REPA将干净图像的预训练自监督表示蒸馏到噪声输入的扩散变压器表示中,从而更好地将扩散模型的表示与目标自监督表示对齐。
值得注意的是,模型训练变得显著更高效和有效,比基础模型的收敛速度快17.5倍以上。在最终生成质量方面,我们的方法使用分类器自由引导和引导间隔,达到了FID=1.42的最先进结果。
观察
预训练SiT模型的对齐行为
我们通过实验研究了DINOv2-g和原始SiT-XL/2检查点(训练了700万次迭代)之间的特征对齐情况。类似于先前的研究,我们首先观察到预训练的扩散模型确实学习到了有意义的判别性表示。然而,这些表示远不如DINOv2产生的表示。接下来,我们发现扩散模型学习的表示与DINOv2的表示之间的对齐仍然较弱,这一点我们通过测量它们的表示对齐来研究。最后,我们观察到随着训练时间的增加和模型规模的扩大,扩散模型与DINOv2的对齐逐渐改善。
弥合表示差距
REPA减少了表示中的语义差距,并更好地将其与目标自监督表示对齐。有趣的是,通过仅对齐前几个变压器块,REPA能够实现足够的表示对齐。这反过来又允许扩散变压器的后续层专注于基于对齐表示捕捉高频细节,从而进一步提高生成性能。
结果
REPA 改进视觉缩放
我们首先比较了两个SiT-XL/2模型在前40万次迭代中生成的图像,其中一个模型应用了REPA。两个模型共享相同的噪声、采样器和采样步数,且都不使用分类器自由引导。使用REPA训练的模型显示出更好的进展。
![PDF 图像]