[论文翻译]Attention Is All You Need
主流的序列转换模型基于复杂的循环或卷积神经网络,这些网络包含编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,完全基于注意力机制,彻底摒弃了循环和卷积结构。在两个机器翻译任务上的实验表明,该模型在质量上更优,同时具备更高的并行化能力,且训练所需时间显著减少。我们的模型在WMT 2014英德翻译任务上取得了28.4 BLEU分,比现有最佳结果(包括集成模型)提高了超过2 BLEU分。在WMT 2014英法翻译任务中,该模型仅用8块GPU训练3.5天就实现了41.8 BLEU分的单模型新标杆,其训练成本仅为文献中最佳模型的一小部分。通过成功应用于英语成分句法分析(无论训练数据量大小),我们证明Transformer能很好地泛化至其他任务。