• [论文翻译]通过从数万亿token中检索改进语言模型

    Improving language models by retrieving from trillions of tokens 通过从数万亿token中检索改进语言模型 We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a 2 tri... 我们通过基于与先前token的局部相似性,从大型语料库中检索文档块作为条件,增强了自回归语言模型。在拥有2万亿token数据库的情况下,我们的检索增强型Transformer (Retro) 在Pile数据集上取得了与GPT-3和Jurassic-1相当的性能,尽管参数数量减少了\$\mathbf{25\times}\$。经过微调后,Retro的性能可迁移至知识密集型下游任务(如问答)。Retro结合了冻结的Bert检索器、可微分编码器和分块交叉注意力机制,能够基于比训练时通常消耗数据量高出一个数量级的规模来预测token。我们通常从头开始训练Retro,但也能快速为预训练Transformer添加检索功能(Retrofit)并保持良好性能。这项工作为通过显式内存以前所未有的规模改进语言模型开辟了新途径。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理