• [论文翻译]BERTOLOGY 遇见生物学:解读蛋白质语言模型中的注意力机制

    Transformer架构已被证明能有效学习蛋白质分类和生成任务的有用表征。然而,这些表征在可解释性方面存在挑战。本工作展示了一套通过注意力机制分析蛋白质Transformer模型的方法。我们发现注意力机制能够:(1) 捕捉蛋白质的折叠结构,连接底层序列中相距较远但在三维结构中空间邻近的氨基酸,(2) 靶向蛋白质关键功能组件——结合位点,(3) 随着网络层深的增加,逐步聚焦更复杂的生物物理特性。该行为在三种Transformer架构(BERT、ALBERT、XLNet)和两个不同蛋白质数据集中表现一致。我们还提供了注意力与蛋白质结构交互的三维可视化。可视化与分析代码详见https://github.com/salesforce/provis。
  • [论文翻译]重新思考注意力机制与Performers

    RETHINKING ATTENTION WITH PERFORMERS 重新思考注意力机制与Performers Krzysztof Cho roman ski∗1, Valerii Li kho s her s to v∗2, David Dohan∗1, Xingyou Song∗1 Andreea Gane∗1, Tamas Sarlos∗1, Peter Hawkins∗1, Jared Davis∗3, Afroz Mohiuddin1 Lukasz Kaiser1, David Belange... 我们推出Performers,这是一种Transformer架构,能够以可证明的准确度估计常规(softmax)全秩注意力Transformer,同时仅使用线性(而非平方级)空间和时间复杂度,且不依赖任何先验假设(如稀疏性或低秩性)。为近似softmax注意力核,Performers采用了一种新颖的基于正交随机特征的快速注意力方法(FAVOR+),该方法对于可扩展核方法可能具有独立价值。FAVOR+还可用于高效建模超越softmax的其他可核化注意力机制。这种表征能力首次使得在大规模任务(超出常规Transformer处理范围)上准确比较softmax与其他核函数成为可能,并能探究最优注意力核。Performers作为线性架构,完全兼容常规Transformer并具备强大理论保证:注意力矩阵的无偏/近无偏估计、一致收敛性及低估计方差。我们在从像素预测到文本建模乃至蛋白质序列分析的多样化任务上测试了Performers,结果表明其与现有高效稀疏/稠密注意力方法相比具有竞争力,展现了Performers所采用的新型注意力学习范式的有效性。
  • [论文翻译]LAMBDA NETWORKS:无需注意力机制的长程交互建模

    LAMBDA NETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION LAMBDA NETWORKS:无需注意力机制的长程交互建模 Irwan Bello Google Research, Brain team ibello@google.com Irwan Bello Google Research, Brain团队 ibello@google.com ABSTRACT 摘要 We present lambda layers – an al... 我们提出lambda层——一种替代自注意力(self-attention)的框架——用于捕获输入与结构化上下文信息之间的长程交互(例如被其他像素包围的单个像素)。lambda层通过将可用上下文转换为线性函数(称为lambda)并分别对每个输入应用这些线性函数,来实现此类交互建模。与线性注意力类似,lambda层绕过了昂贵的注意力图计算,但不同之处在于它们同时建模基于内容和位置的交互,这使得其能够处理图像等大型结构化输入。由此构建的神经网络架构Lambda Networks在ImageNet分类、COCO目标检测和COCO实例分割任务上显著优于卷积和注意力基线模型,同时具有更高的计算效率。此外,我们设计了Lambda Res Nets这一跨不同尺度的混合架构家族,显著改善了图像分类模型的速度-精度权衡。Lambda Res Nets在现代机器学习加速器上比流行的Efficient Nets快\$3.2\cdot4.4\mathrm{x}\$倍的同时,在ImageNet上达到了优异精度。当使用额外1.3亿张伪标注图像进行训练时,Lambda Res Nets相比对应EfficientNet检查点实现了高达\$\mathbf{9.5x}\$的加速[1]。
  • [论文翻译]Axial-DeepLab: 独立轴向注意力机制的全景分割

    Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation Axial-DeepLab: 独立轴向注意力机制的全景分割 Huiyu Wang $\cdot^{\perp\star}$ , Yukun Zhu $^2$ , Bradley Green2, Hartwig Adam $^2$ , Alan Yuille $\perp$ , and Liang-Chieh Chen $^2$ Huiyu Wang $\... 卷积利用局部性提升效率,却以牺牲长距离上下文为代价。自注意力机制被引入以增强CNN的非局部交互能力。近期研究证明,通过将注意力限制在局部区域,可以堆叠自注意力层构建全注意力网络。本文尝试通过将二维自注意力分解为两个一维自注意力来突破这一限制,从而降低计算复杂度,并实现在更大甚至全局范围内执行注意力。同时,我们提出位置敏感的自注意力设计。二者结合形成新型基础模块——位置敏感轴向注意力层,可堆叠构建用于图像分类和密集预测的轴向注意力模型。我们在四个大规模数据集上验证了模型有效性:在ImageNet上超越所有现有独立自注意力模型;Axial-DeepLab在COCO test-dev上以\$2.8\%\$ PQ提升超越自底向上方法的最优结果,该记录由我们的小型变体实现(参数效率提升\$3.8\times\$,计算效率提升\$27\times\$);在Mapillary Vistas和Cityscapes数据集上也达到最优性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理