[论文翻译]FMix: 提升混合样本数据增强效果
摘要—混合样本数据增强(MSDA)近年来受到越来越多的关注,已涌现出MixUp和CutMix等成功变体。通过研究VAE在原始数据和增强数据上学习到的函数之间的互信息,我们发现MixUp会扭曲学习到的函数,而CutMix则不会。进一步研究表明,MixUp起到了一种对抗训练的作用,能提升模型对Deep Fool和均匀噪声等攻击的鲁棒性——这些攻击生成的样本与MixUp生成的样本类似。我们认为这种扭曲效应能防止模型学习数据中的样本特异性特征,从而提升泛化性能。相比之下,CutMix更像传统的数据增强方法,通过防止过拟合来提升性能,且不会扭曲数据分布。但我们指出,基于CutMix开发能生成任意形状(而非仅限于方形)掩模的MSDA方法,可以在保持数据分布的同时更好地防止过拟合。为此,我们提出FMix:这种MSDA方法通过对傅里叶空间采样的低频图像进行阈值处理来获取随机二值掩模。