[论文翻译]基于像素的生成式预训练 (Generative Pre-training from Pixels)
受自然语言无监督表征学习进展的启发,我们探究类似模型能否学习有效的图像表征。我们训练了一个序列Transformer (Transformer) 进行像素自回归预测,且未引入2D输入结构的先验知识。尽管在无标签的低分辨率ImageNet数据上训练,我们发现GPT-2规模的模型通过线性探测 (linear probing) 、微调和低数据分类评估,仍能学习到强大的图像表征。在CIFAR-10上,线性探测达到96.3%准确率(超越有监督Wide ResNet),全微调达到99.0%准确率(媲美顶级有监督预训练模型)。在ImageNet与网络图像混合数据上训练的更大模型,其线性探测特征达到72.0% top-1准确率,与ImageNet自监督基准性能相当。