transformer - 文章

[论文翻译]Attention Is All You Need

主流的序列转换模型基于复杂的循环或卷积神经网络，这些网络包含编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer，完全基于注意力机制，彻底摒弃了循环和卷积结构。在两个机器翻译任务上的实验表明，该模型在质量上更优，同时具备更高的并行化能力，且训练所需时间显著减少。我们的模型在WMT 2014英德翻译任务上取得了28.4 BLEU分，比现有最佳结果（包括集成模型）提高了超过2 BLEU分。在WMT 2014英法翻译任务中，该模型仅用8块GPU训练3.5天就实现了41.8 BLEU分的单模型新标杆，其训练成本仅为文献中最佳模型的一小部分。通过成功应用于英语成分句法分析（无论训练数据量大小），我们证明Transformer能很好地泛化至其他任务。

由卡汁发布于 2025-04-20 12:23:02 序列转换模型transformer 阅读次数 369
[论文翻译]Transformer的前馈层是键值记忆体

前馈层占据Transformer模型三分之二的参数量，但其在网络中的作用仍未得到充分研究。我们发现基于Transformer的大语言模型中，前馈层扮演着键值记忆体的角色——每个键(key)与训练样本中的文本模式相关联，而每个值(value)则诱导输出词表上的概率分布。实验表明：这些学习到的模式具有人类可解释性，其中底层倾向于捕捉浅层模式，而高层则学习更具语义性的模式；值通过将概率质量集中在各模式后续可能出现的token上（尤其在高层级）来补充键的输入模式。最后我们证明，前馈层的输出是其记忆体的组合产物，这些产物会通过残差连接在模型各层中逐步精炼，最终形成输出分布。

由 147****6943发布于 2025-04-20 12:17:06 transformer键值阅读次数 595
[论文翻译]TRANSFORMER-PATCHER: 一错一神经元

基于Transformer的大型预训练语言模型(PLM)主导了几乎所有自然语言处理(NLP)任务。然而，它们仍会不时犯错。对于部署在工业环境中的模型而言，快速稳健地修复这些错误对提升用户体验至关重要。先前研究将此类问题形式化为模型编辑(ME)，主要关注单个错误的修正。但单错误修正场景并不能准确抽象现实挑战。在AI服务部署中，错误会不断涌现，若未及时纠正，相同错误可能反复出现。因此更优解决方案是持续即时修正错误。为此，我们将现有ME扩展为序列化模型编辑(SME)，以助力开发更具实用性的编辑方法。研究表明，当前多数ME方法在此场景下表现欠佳。我们继而提出Transformer-Patcher——通过仅在末层前馈网络中添加并训练少量神经元，即可改变基于Transformer模型行为的新型编辑器。分类与生成任务的实验结果表明，Transformer-Patcher能连续修正上千个错误(可靠性)，并泛化至等效输入(通用性)，同时保持模型对无关输入的准确性(局部性)。该方法优于先前基于微调和超网络的方法，在序列化模型编辑(SME)中实现了最先进性能。代码详见https://github.com/ZeroYuHuang/Transformer-Patcher。

由 147****6943发布于 2025-04-19 21:33:26 transformer自然语言处理阅读次数 514
[论文翻译]Transformer 是 RNN：具有线性注意力的快速自回归 Transformer

Transformer 在多项任务中表现出色，但由于其计算复杂度与输入长度呈平方关系，在处理超长序列时速度极慢。为突破这一限制，我们将自注意力机制表述为核特征映射的线性点积，并利用矩阵乘法的结合律特性，将复杂度从 \$\mathcal{O}\left(N^{2}\right)\$ 降至 \$\mathcal O\left(N\right)\$（其中 \$N\$ 为序列长度）。研究表明，这种形式化方法支持迭代实现，能显著加速自回归 Transformer，同时揭示其与循环神经网络的内在关联。我们的线性 Transformer 性能与标准 Transformer 相当，在超长序列的自回归预测任务中速度提升高达 \$4000\mathrm{x}\$。

由 Ylong发布于 2025-04-14 22:15:39 transformer超长序列自回归预测任务阅读次数 469
[论文翻译]GShard: 基于条件计算和自动分片的超大规模模型扩展方案

神经网络扩展对于提升许多现实世界机器学习应用中的模型质量至关重要，尤其是在拥有海量训练数据和计算资源的情况下。尽管这种扩展趋势被证实是提高模型质量的有效途径，但在实施过程中仍面临计算成本、编程便捷性以及在并行设备上高效实现等挑战。GShard是一个由轻量级标注API集合和XLA编译器扩展组成的模块，它通过极少的现有模型代码改动，提供了一种优雅的方式来表达各种并行计算模式。借助自动分片技术，GShard使我们能够将稀疏门控专家混合(Sparsely-Gated Mixture-of-Experts)的多语言神经机器翻译Transformer模型规模扩展至超过6000亿参数。实验证明，这一巨型模型可在2048个TPU v3加速器上高效训练4天，在100种语言到英语的翻译任务中实现了远超现有技术的质量表现。

由 Ylong发布于 2025-04-14 13:03:25 神经网络transformer机器学习阅读次数 556
[论文翻译]Transformer 记忆作为可微分搜索索引

Transformer Memory as a Differentiable Search Index Transformer 记忆作为可微分搜索索引 Yi Tay∗, Vinh Q. Tran∗, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster William W. Cohen, Donald Metzler Google Research {... 本文提出了一种仅用单个Transformer即可实现信息检索的方法，其中语料库的所有信息都被编码在模型参数中。为此，我们引入了可微分搜索索引(DSI)这一新范式，它通过学习一个将字符串查询直接映射到相关文档ID的文本到文本模型；换言之，DSI模型仅凭自身参数就能直接响应查询，极大简化了整个检索流程。我们研究了文档及其标识符的表示方式差异、训练流程的变体，以及模型与语料库规模之间的相互作用。实验表明，在适当的设计选择下，DSI显著优于双编码器模型等强基线。此外，DSI展现出强大的泛化能力，在零样本设置中超越了BM25基线。

由 147****6943发布于 2025-04-12 11:47:22 transformer微分搜索阅读次数 381
[论文翻译]探究稀疏注意力对交叉编码器的影响

Investigating the Effects of Sparse Attention on Cross-Encoders 探究稀疏注意力对交叉编码器的影响 Ferdinand Schlatt, Maik Frobe, and Matthias Hagen Ferdinand Schlatt, Maik Frobe, Matthias Hagen Friedrich-Schiller-Universit t Jena 弗里德里希·席勒大学耶拿 Abstract Cross-encoders are ef... 交叉编码器(Cross-encoder)是高效的段落和文档重排序器，但效率低于其他神经或经典检索模型。先前少数研究尝试通过窗口自注意力机制提升交叉编码器效率，但未深入探究不同注意力模式与窗口尺寸的潜力边界。本研究填补这一空白，系统分析如何在保持重排序效果的前提下减少token交互。通过非对称注意力与多窗口尺寸实验，我们发现：查询token无需关注文档token即可实现有效重排序，且极小窗口尺寸已足够。实验表明，仅4个token的窗口仍能保持与传统交叉编码器相当的效果，同时内存需求降低22%~59%，段落/文档推理速度提升1%~43%。代码已开源。

由 147****6943发布于 2025-04-11 23:01:15 transformer稀疏注意力阅读次数 433
[论文翻译]重新思考注意力机制与Performers

RETHINKING ATTENTION WITH PERFORMERS 重新思考注意力机制与Performers Krzysztof Cho roman ski∗1, Valerii Li kho s her s to v∗2, David Dohan∗1, Xingyou Song∗1 Andreea Gane∗1, Tamas Sarlos∗1, Peter Hawkins∗1, Jared Davis∗3, Afroz Mohiuddin1 Lukasz Kaiser1, David Belange... 我们推出Performers，这是一种Transformer架构，能够以可证明的准确度估计常规(softmax)全秩注意力Transformer，同时仅使用线性(而非平方级)空间和时间复杂度，且不依赖任何先验假设(如稀疏性或低秩性)。为近似softmax注意力核，Performers采用了一种新颖的基于正交随机特征的快速注意力方法(FAVOR+)，该方法对于可扩展核方法可能具有独立价值。FAVOR+还可用于高效建模超越softmax的其他可核化注意力机制。这种表征能力首次使得在大规模任务(超出常规Transformer处理范围)上准确比较softmax与其他核函数成为可能，并能探究最优注意力核。Performers作为线性架构，完全兼容常规Transformer并具备强大理论保证：注意力矩阵的无偏/近无偏估计、一致收敛性及低估计方差。我们在从像素预测到文本建模乃至蛋白质序列分析的多样化任务上测试了Performers，结果表明其与现有高效稀疏/稠密注意力方法相比具有竞争力，展现了Performers所采用的新型注意力学习范式的有效性。

由 147****6943发布于 2025-04-03 16:44:15 transformer注意力机制阅读次数 519
[论文翻译]GAN-BERT：基于生成对抗学习的鲁棒文本分类方法（仅需少量标注样本）

GAN-BERT: Generative Adversarial Learning for Robust Text Classification with a Bunch of Labeled Examples GAN-BERT：基于生成对抗学习的鲁棒文本分类方法（仅需少量标注样本） croce@info.uniroma2.it croce@info.uniroma2.it basili@info.uniroma2.it basili@info.uniroma2.it Abstract 摘要 Recent ... 基于Transformer的最新架构(如BERT)在众多自然语言处理任务中展现出卓越性能。然而现有基准测试大多依赖(有时多达数十万)标注样本。实际场景中，获取高质量标注数据往往成本高昂且耗时，而目标任务的未标注数据通常易于收集。半监督生成对抗网络已在图像处理领域展现出解决这一问题的潜力。本文提出GAN-BERT，通过在生成对抗框架中结合未标注数据来扩展类BERT架构的微调方法。实验表明，该方法在多个句子分类任务中仅需极少量标注样本(50-100个)即可保持优异性能。

由 147****6943发布于 2025-03-30 11:54:35 transformerBert 阅读次数 522

创作中心

开启你的AI千集创作之旅

发布首篇内容，开通创作中心快来成为AI千集创作者吧～