• [论文翻译]BERTOLOGY 遇见生物学:解读蛋白质语言模型中的注意力机制

    Transformer架构已被证明能有效学习蛋白质分类和生成任务的有用表征。然而,这些表征在可解释性方面存在挑战。本工作展示了一套通过注意力机制分析蛋白质Transformer模型的方法。我们发现注意力机制能够:(1) 捕捉蛋白质的折叠结构,连接底层序列中相距较远但在三维结构中空间邻近的氨基酸,(2) 靶向蛋白质关键功能组件——结合位点,(3) 随着网络层深的增加,逐步聚焦更复杂的生物物理特性。该行为在三种Transformer架构(BERT、ALBERT、XLNet)和两个不同蛋白质数据集中表现一致。我们还提供了注意力与蛋白质结构交互的三维可视化。可视化与分析代码详见https://github.com/salesforce/provis。
  • [论文翻译]Big Bird: 更长序列的Transformer

    Big Bird: Transformers for Longer Sequences Big Bird: 更长序列的Transformer Abstract 摘要 Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dep... 基于Transformer的模型(如BERT)已成为自然语言处理(NLP)领域最成功的深度学习模型之一。然而,由于其全注意力机制,这类模型存在一个核心限制:对序列长度的二次方依赖(主要体现在内存消耗上)。为解决这一问题,我们提出了BIGBIRD——一种将二次方依赖降为线性关系的稀疏注意力机制。我们证明BIGBIRD是序列函数的通用逼近器,具备图灵完备性,从而保留了全注意力模型的这些特性。理论分析揭示了稀疏注意力机制中设置\$O(1)\$全局token(如CLS)的优势,这些token能够关注整个序列。该稀疏注意力机制可处理的序列长度达到原有硬件条件下最大长度的8倍。得益于处理长上下文的能力,BIGBIRD在问答和摘要等NLP任务上显著提升了性能。我们还提出了其在基因组数据中的创新应用。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理