[论文翻译]组归一化 (Group Normalization)
批归一化 (Batch Normalization, BN) 是深度学习发展中的里程碑技术,它使得各种网络能够进行训练。然而,沿批次维度进行归一化会带来问题——当批次规模变小时,由于批次统计量估计不准确,BN 的误差会迅速增大。这限制了 BN 在训练更大模型以及将特征迁移到计算机视觉任务(包括检测、分割和视频处理)中的应用,这些任务受内存消耗限制而需要使用小批次。本文提出组归一化 (Group Normalization, GN) 作为 BN 的简单替代方案。GN 将通道划分为若干组,并在每组内计算均值和方差以进行归一化。GN 的计算与批次规模无关,其精度在广泛的批次规模范围内保持稳定。在 ImageNet 上训练的 ResNet-50 中,当批次规模为 2 时,GN 的误差比 BN 低 10.6%;在使用典型批次规模时,GN 与 BN 表现相当,并优于其他归一化变体。此外,GN 可以自然地从预训练迁移到微调。在 COCO 的目标检测和分割任务中,以及在 Kinetics 的视频分类任务中,GN 的表现优于基于 BN 的方案,这表明 GN 可以在多种任务中有效替代强大的 BN。GN 只需在现代库中用几行代码即可轻松实现。