• [论文翻译]层归一化 (Layer Normalization)

    训练最先进的深度神经网络在计算上非常昂贵。减少训练时间的一种方法是规范化神经元的激活值。最近提出的批归一化(batch normalization)技术利用小批量训练样本中神经元输入的分布来计算均值和方差,然后用这些统计量对每个训练样本的输入进行归一化。这种方法在前馈神经网络中显著缩短了训练时间。然而,批归一化的效果依赖于小批量尺寸,且难以直接应用于循环神经网络。本文通过计算单个训练样本中某层所有神经元输入的均值和方差,将批归一化转换为层归一化(layer normalization)。与批归一化类似,我们也为每个神经元设置自适应的偏置和增益参数,这些参数在归一化之后、非线性变换之前应用。不同于批归一化,层归一化在训练和测试阶段执行完全相同的计算。通过在每个时间步单独计算归一化统计量,该方法可以自然地扩展到循环神经网络。实验表明,层归一化能有效稳定循环网络中的隐藏状态动态变化。实证结果显示,相较于已有技术,层归一化能显著缩短训练时间。
  • [论文翻译]基于循环神经网络的序列预测计划采样方法

    循环神经网络 (Recurrent Neural Networks) 可以通过训练在给定输入的情况下生成一系列 token,这在机器翻译和图像描述生成的最新成果中得到了印证。目前训练它们的方法主要是最大化序列中每个 token 在当前(循环)状态和前一 token 条件下的似然。在推理时,未知的前一 token 会被模型自身生成的 token 所替代。这种训练和推理之间的差异可能导致错误,并沿着生成的序列迅速累积。我们提出了一种课程学习 (curriculum learning) 策略,逐步将训练过程从完全依赖真实前一 token 的引导模式,过渡到主要使用模型生成 token 的低引导模式。在多个序列预测任务上的实验表明,这种方法带来了显著改进。此外,它在我们赢得 2015 年 MSCOCO 图像描述挑战赛的参赛方案中得到了成功应用。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理