• [论文翻译]CDLM: 跨文档语言建模

    我们提出了一种面向多文档语言建模的新型预训练方法,该方法将两个关键思想融入掩码语言建模的自监督目标中。首先,我们不再孤立地处理单个文档,而是在多个相关文档集合上进行预训练,促使模型学习跨文档关联。其次,我们改进了近期长程Transformer架构,引入动态全局注意力机制,使其能访问整个输入文本来预测被掩码的token。我们发布了CDLM(跨文档语言模型),这是一个适用于多文档场景的新型通用语言模型,可轻松迁移至下游任务。大量实验表明:这两个创新点对CDLM的成功至关重要,它们协同作用,在多项多文本任务上创造了最新技术水平[20]。
  • [论文翻译]通过从数万亿token中检索改进语言模型

    Improving language models by retrieving from trillions of tokens 通过从数万亿token中检索改进语言模型 We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a 2 tri... 我们通过基于与先前token的局部相似性,从大型语料库中检索文档块作为条件,增强了自回归语言模型。在拥有2万亿token数据库的情况下,我们的检索增强型Transformer (Retro) 在Pile数据集上取得了与GPT-3和Jurassic-1相当的性能,尽管参数数量减少了\$\mathbf{25\times}\$。经过微调后,Retro的性能可迁移至知识密集型下游任务(如问答)。Retro结合了冻结的Bert检索器、可微分编码器和分块交叉注意力机制,能够基于比训练时通常消耗数据量高出一个数量级的规模来预测token。我们通常从头开始训练Retro,但也能快速为预训练Transformer添加检索功能(Retrofit)并保持良好性能。这项工作为通过显式内存以前所未有的规模改进语言模型开辟了新途径。
  • [论文翻译]REPLUG: 检索增强的黑盒大语言模型

    REPLUG: Retrieval-Augmented Black-Box Language Models REPLUG: 检索增强的黑盒大语言模型 Weijia Shi,1 * Sewon Min,1 Michihiro Yasunaga,2 Minjoon Seo,3 Rich James,4 Mike Lewis,4 Luke Z ett le moyer 1 4 Wen-tau Yih 4 Weijia Shi,1 * Sewon Min,1 Michihiro Yasunaga,2 Minjoon... 我们提出了REPLUG,一个检索增强的语言建模框架,它将语言模型(LM)视为黑盒,并通过可调优的检索模型进行增强。与之前那些训练语言模型使用特殊交叉注意力机制来编码检索文本的检索增强LM不同,REPLUG只是简单地将检索到的文档前置到冻结黑盒LM的输入中。这种简单设计可以轻松应用于任何现有的检索和语言模型。此外,我们还展示了LM可用于监督检索模型,从而找到有助于LM做出更好预测的文档。我们的实验表明,配备调优检索器的REPLUG将GPT-3(175B)在语言建模上的性能显著提高了6.3%,同时将Codex在五样本MMLU上的性能提高了5.1%。
  • [论文翻译]上下文检索增强型语言模型

    In-Context Retrieval-Augmented Language Models 上下文检索增强型语言模型 Ori Ram∗ Yoav Levine∗ Itay Dalmedigos Dor Muhlgay Amnon Shashua Kevin Leyton-Brown Yoav Shoham AI21 Labs Ori Ram∗ Yoav Levine∗ Itay Dalmedigos Dor Muhlgay Amnon Shashua Kevin Leyton-Brown Yoav Sho... 检索增强语言建模 (Retrieval-Augmented Language Modeling, RALM) 方法通过在生成过程中基于语料库中的相关文档对语言模型 (Language Model, LM) 进行条件约束,被证明能显著提升语言建模性能。此外,该方法还能缓解生成文本事实性错误的问题,并提供自然的来源归因机制。现有RALM方法主要侧重于修改LM架构以整合外部信息,这大幅增加了部署复杂度。本文提出了一种名为"上下文RALM"的简单替代方案:保持LM架构不变,仅将相关文档前置到输入中,无需对LM进行额外训练。实验表明,基于现成通用检索器的上下文RALM能在不同模型规模和多样语料库上带来惊人的性能提升。我们还证实,通过针对RALM场景定制文档检索和排序机制可进一步提升效果。研究得出结论:上下文RALM具有极大潜力来提升语言模型的基础应用普及度,特别是在必须使用未经修改的预训练模型或仅通过API访问的场景中。[1]
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理