[论文翻译]放射性数据:训练追踪
Radioactive data: tracing through training
放射性数据:训练追踪
Alexandre S a blay roll es 1 2 Matthijs Douze 1 Cordelia Schmid ? Hervé Jégou
Alexandre Sablayrolles 1 2 Matthijs Douze 1 Cordelia Schmid ? Hervé Jégou
Abstract
摘要
We want to detect whether a partic...
我们想检测某个特定图像数据集是否被用于训练模型。我们提出了一种新技术——放射性数据(radioactive data),通过对该数据集进行难以察觉的修改,使得任何基于它训练的模型都会带有可识别标记。该标记对架构差异或优化方法等强变量具有鲁棒性。给定一个训练好的模型,我们的技术可以检测放射性数据的使用情况,并提供置信度(p值)。
我们在大型基准测试(Imagenet)上使用标准架构(Resnet18、VGG-16、Densenet-121)和训练流程进行实验,结果表明即使仅使用1%的放射性数据训练模型,我们也能以极高置信度\$(p<10^{-4})\$检测出放射性数据的使用。该方法对数据增强和深度网络优化的随机性具有鲁棒性,因此其信噪比远高于数据投毒和后门方法。