[论文翻译]层归一化 (Layer Normalization)

训练最先进的深度神经网络在计算上非常昂贵。减少训练时间的一种方法是规范化神经元的激活值。最近提出的批归一化(batch normalization)技术利用小批量训练样本中神经元输入的分布来计算均值和方差，然后用这些统计量对每个训练样本的输入进行归一化。这种方法在前馈神经网络中显著缩短了训练时间。然而，批归一化的效果依赖于小批量尺寸，且难以直接应用于循环神经网络。本文通过计算单个训练样本中某层所有神经元输入的均值和方差，将批归一化转换为层归一化(layer normalization)。与批归一化类似，我们也为每个神经元设置自适应的偏置和增益参数，这些参数在归一化之后、非线性变换之前应用。不同于批归一化，层归一化在训练和测试阶段执行完全相同的计算。通过在每个时间步单独计算归一化统计量，该方法可以自然地扩展到循环神经网络。实验表明，层归一化能有效稳定循环网络中的隐藏状态动态变化。实证结果显示，相较于已有技术，层归一化能显著缩短训练时间。

由卡汁发布于 2025-04-18 18:41:35 批归一化循环神经网络深度神经网络审核中阅读次数 6