大规模语言建模 - 文章

[论文翻译]用于实体和关系提取的Packed Levitated Marker

近期实体与关系抽取研究主要关注如何从预训练编码器中获取更优的跨度表示。然而现有工作的核心局限在于忽视了跨度（配对）间的相互关系。本文提出名为Packed Levitated Markers (PL-Marker) 的新型跨度表示方法，通过在编码器中策略性地打包标记(markers)来建模跨度（配对）间的关联。具体而言，我们提出邻域导向打包策略，通过整体考虑相邻跨度来更好地建模实体边界信息。针对更复杂的跨度对分类任务，我们设计了主体导向打包策略，将每个主体与其所有客体打包以建模同主体跨度对间的相互作用。实验表明，增强的标记特征使我们的模型在六个NER基准测试中超越基线，并在ACE04和ACE05数据集上以更高速度实现了4.1%-4.3%的严格关系F1值提升。代码与模型已开源：https://github.com/thunlp/PL-Marker。

由 shadow发布于 2025-06-10 20:09:29 语言建模局限性.大规模语言建模大模型阅读次数 361
[论文翻译]TF-LOCOFORMER: 基于卷积局部建模的Transformer语音分离与增强模型

时频 (TF) 域双路径模型实现了高保真语音分离。虽然之前的一些最先进 (SoTA) 模型依赖于 RNN，但这种依赖意味着它们缺乏 Transformer 模块的可并行性、可扩展性和通用性。鉴于纯 Transformer 架构在其他领域的广泛成功，本工作的重点是在保持 SoTA 性能的同时，从 TF 域双路径模型中移除 RNN。本文提出了 TF-Locoformer，这是一种基于 Transformer 的模型，通过卷积实现局部建模 (LOcal-modeling by COnvolution)。该模型使用带有卷积层的前馈网络 (FFN) 代替线性层来捕获局部信息，使自注意力专注于捕获全局模式。我们在自注意力前后放置了两个这样的 FFN 以增强局部建模能力。我们还为 TF 域双路径模型引入了一种新颖的归一化方法。在分离和增强数据集上的实验表明，所提出的模型在多个基准测试中达到或超过了 SoTA，且无需 RNN 架构。

由 shadow发布于 2025-05-26 14:17:27 大模型私有大模型大规模语言建模阅读次数 604
[论文翻译]CDLM: 跨文档语言建模

我们提出了一种面向多文档语言建模的新型预训练方法，该方法将两个关键思想融入掩码语言建模的自监督目标中。首先，我们不再孤立地处理单个文档，而是在多个相关文档集合上进行预训练，促使模型学习跨文档关联。其次，我们改进了近期长程Transformer架构，引入动态全局注意力机制，使其能访问整个输入文本来预测被掩码的token。我们发布了CDLM（跨文档语言模型），这是一个适用于多文档场景的新型通用语言模型，可轻松迁移至下游任务。大量实验表明：这两个创新点对CDLM的成功至关重要，它们协同作用，在多项多文本任务上创造了最新技术水平[20]。

由 shadow发布于 2025-05-21 11:53:47 模型训练大规模语言建模语言建模阅读次数 442
[论文翻译]XLNet: 用于语言理解的广义自回归预训练

基于双向上下文建模的能力，像 BERT 这样的去噪自编码预训练方法比基于自回归语言建模的预训练方法表现更好。然而，由于依赖掩码对输入进行破坏，BERT 忽略了掩码位置之间的依赖关系，并存在预训练-微调差异。鉴于这些优缺点，我们提出了 XLNet，这是一种广义的自回归预训练方法，它 (1) 通过最大化所有因子分解顺序排列的期望似然来学习双向上下文，并且 (2) 由于其自回归公式，克服了 BERT 的局限性。此外，XLNet 将来自最先进的自回归模型 Transformer-XL 的思想整合到预训练中。实验表明，在可比的实验设置下，XLNet 在 20 个任务上优于 BERT，通常优势显著，包括问答、自然语言推理、情感分析和文档排序。

由 shadow发布于 2025-03-22 17:14:29 大规模语言建模大模型AI知识阅读次数 480

[论文翻译]用于实体和关系提取的Packed Levitated Marker

[论文翻译]TF-LOCOFORMER: 基于卷积局部建模的Transformer语音分离与增强模型

[论文翻译]CDLM: 跨文档语言建模

[论文翻译]XLNet: 用于语言理解的广义自回归预训练