[论文翻译]Movement Pruning: 通过微调实现自适应稀疏化
幅度剪枝 (magnitude pruning) 是一种广泛用于纯监督学习模型压缩的策略,但在已成为最先进自然语言处理应用标准的迁移学习场景中效果欠佳。我们提出运动剪枝 (movement pruning) 方法,这是一种简单、确定性的一阶权重剪枝方法,能更好地适应预训练模型微调场景。我们为该算法建立了数学基础,并与现有零阶和一阶剪枝方法进行了对比实验。结果表明,在对大型预训练语言模型进行剪枝时,运动剪枝在高稀疏度场景下表现出显著优势。当结合知识蒸馏技术时,该方法仅保留 \$3\%\$ 模型参数即可实现精度损失最小化。