• [论文翻译]Attention Is All You Need

    主流的序列转换模型基于复杂的循环或卷积神经网络,这些网络包含编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,完全基于注意力机制,彻底摒弃了循环和卷积结构。在两个机器翻译任务上的实验表明,该模型在质量上更优,同时具备更高的并行化能力,且训练所需时间显著减少。我们的模型在WMT 2014英德翻译任务上取得了28.4 BLEU分,比现有最佳结果(包括集成模型)提高了超过2 BLEU分。在WMT 2014英法翻译任务中,该模型仅用8块GPU训练3.5天就实现了41.8 BLEU分的单模型新标杆,其训练成本仅为文献中最佳模型的一小部分。通过成功应用于英语成分句法分析(无论训练数据量大小),我们证明Transformer能很好地泛化至其他任务。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理