• [论文翻译]Synthesizer: 重新思考Transformer模型中的自注意力机制

    点积自注意力 (dot product self-attention) 机制被认为是当前最先进 Transformer 模型的核心且不可或缺的组成部分。但它真的必不可少吗?本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献。通过大量实验,我们发现:(1) 随机对齐矩阵的表现出人意料地具有竞争力;(2) 从 token-token (query-key) 交互中学习注意力权重虽然有用,但最终并不那么重要。为此,我们提出了 SYNTHESIZER——一种无需 token-token 交互即可学习合成注意力权重的模型。在实验中,我们首先证明:与原始 Transformer 模型相比,简单的 Synthesizer 在机器翻译、语言建模、文本生成以及 GLUE/SuperGLUE 基准测试等一系列任务中均能实现极具竞争力的性能。当与点积注意力结合使用时,Synthesizer 始终优于 Transformer。此外,我们将 Synthesizer 与动态卷积 (Dynamic Convolutions) 进行对比,结果表明简单的随机 Synthesizer 不仅速度快 60%,还能将困惑度相对降低 3.5%。最后,我们证明在纯编码任务中,简单的因子分解 Synthesizer 可以超越 Linformer。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理