[论文翻译]ImageNet分类器能否泛化到ImageNet?
我们为CIFAR-10和ImageNet数据集构建了新的测试集。这两个基准测试近十年来一直是密集研究的焦点,存在对过度重复使用测试集过拟合的风险。通过严格遵循原始数据集创建流程,我们测试了当前分类模型对新数据的泛化程度。我们评估了多种模型,发现CIFAR-10准确率下降3%-15%,ImageNet下降11%-14%。然而,原始测试集上的准确率提升会转化为新测试集上更大的提升。结果表明,准确率下降并非由适应性导致,而是模型无法泛化到比原始测试集图像稍"难"的图像。