大型深度神经网络虽然强大，但存在记忆化、对抗样本敏感等不良行为。本文提出mixup这一简单学习原则来缓解这些问题。本质上，mixup通过对样本及其标签的凸组合来训练神经网络，从而促使网络在训练样本之间表现出简单的线性行为。我们在ImageNet-2012、CIFAR-10、CIFAR-100、Google commands和UCI数据集上的实验表明，mixup能提升前沿神经网络架构的泛化能力。同时发现mixup可减少对错误标签的记忆、增强对抗样本的鲁棒性，并稳定生成对抗网络(GAN)的训练。

[论文翻译]关于Mixup训练：提升深度神经网络的校准性和预测不确定性

Mixup [40] 是近期提出的一种深度神经网络训练方法，通过在训练过程中对随机图像对及其关联标签进行凸组合来生成额外样本。尽管实现简单，该方法已被证明在图像分类数据增强中效果显著：采用mixup训练的深度神经网络在多项图像分类基准测试中展现出明显的性能提升。本文探讨了mixup训练中一个尚未被研究的维度——模型校准性与预测不确定性。我们发现，相比常规训练方式，mixup训练的深度神经网络具有显著更优的校准性（即预测softmax分数能更准确反映实际正确预测概率）。我们在多种图像分类架构和数据集（包括ImageNet等大规模数据集）上进行了实验验证。此外，研究发现仅混合特征无法带来相同的校准优势，而mixup训练中的标签平滑对改善校准性起关键作用。最后，我们还观察到mixup训练的深度神经网络对分布外数据和随机噪声数据的过自信预测倾向更低。我们得出结论：神经网络中常见的过度自信现象（即使在分布内数据上）很可能是硬标签训练导致的，建议在预测不确定性至关重要的分类任务中采用mixup方法。

由 shadow发布于 2025-03-26 10:17:37 mixup训练大模型AI知识阅读次数 543

[论文翻译]mixup：超越经验风险最小化

[论文翻译]关于Mixup训练：提升深度神经网络的校准性和预测不确定性