Avey-B
紧凑型预训练双向编码器在计算和内存预算紧张的情况下仍然是工业自然语言处理的核心。它们的有效性源于自注意力机制能够通过序列级别的并行性提供高质量的双向上下文化,这一特点由BERT风格架构所普及。最近,Avey作为一种自回归、无注意力机制的替代方案被引入,它自然地允许只使用编码器进行适配。在本文中,我们对Avey进行了重新设计,以适应只使用编码器的范式,并对其架构提出了几个创新,包括解耦静态和动态参数化、以稳定性为导向的归一化以及神经网络压缩。结果表明,这种重新设计的架构与四种广泛使用的基于Transformer的编码器相比具有优势,在标准标记分类和信息检索基准测试中始终优于它们,并且能够更高效地扩展到长上下文。
赞
评论
请
登录后发表观点
