[论文翻译]通过从数万亿token中检索改进语言模型
Improving language models by retrieving from trillions of tokens
通过从数万亿token中检索改进语言模型
We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a 2 tri...
我们通过基于与先前token的局部相似性,从大型语料库中检索文档块作为条件,增强了自回归语言模型。在拥有2万亿token数据库的情况下,我们的检索增强型Transformer (Retro) 在Pile数据集上取得了与GPT-3和Jurassic-1相当的性能,尽管参数数量减少了\$\mathbf{25\times}\$。经过微调后,Retro的性能可迁移至知识密集型下游任务(如问答)。Retro结合了冻结的Bert检索器、可微分编码器和分块交叉注意力机制,能够基于比训练时通常消耗数据量高出一个数量级的规模来预测token。我们通常从头开始训练Retro,但也能快速为预训练Transformer添加检索功能(Retrofit)并保持良好性能。这项工作为通过显式内存以前所未有的规模改进语言模型开辟了新途径。