[论文翻译]基于锐度感知最小化的高效泛化提升方法
在当今高度过参数化的模型中,训练损失值对模型泛化能力的保证十分有限。事实上,仅优化训练损失值(这是常见做法)很容易导致模型质量欠佳。受先前关于损失函数几何形状与泛化能力关联研究的启发,我们提出了一种新颖有效的方法,可同时最小化损失值和损失锐度。具体而言,我们的锐度感知最小化(Sharpness-Aware Minimization,SAM)方法会寻找处于均匀低损失邻域的参数;该方案形成了一个可通过梯度下降高效求解的极小极大优化问题。实验结果表明,SAM在多种基准数据集(如CIFAR \$\{10,100\}\$、ImageNet、微调任务)和模型上均提升了泛化能力,并在多项任务中创造了最新最优性能。此外,我们发现SAM天然具备与专门针对噪声标签学习的最先进方法相当的标签噪声鲁棒性。代码已开源:https://github.com/google-research/sam。