Avey-B

紧凑型预训练双向编码器在计算和内存预算紧张的情况下仍然是工业自然语言处理的核心。它们的有效性源于自注意力机制能够通过序列级别的并行性提供高质量的双向上下文化,这一特点由BERT风格架构所普及。最近,Avey作为一种自回归、无注意力机制的替代方案被引入,它自然地允许只使用编码器进行适配。在本文中,我们对Avey进行了重新设计,以适应只使用编码器的范式,并对其架构提出了几个创新,包括解耦静态和动态参数化、以稳定性为导向的归一化以及神经网络压缩。结果表明,这种重新设计的架构与四种广泛使用的基于Transformer的编码器相比具有优势,在标准标记分类和信息检索基准测试中始终优于它们,并且能够更高效地扩展到长上下文。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行