• [论文翻译]大语言模型难以掌握长尾知识

    Large Language Models Struggle to Learn Long-Tail Knowledge 大语言模型难以掌握长尾知识 Nikhil Kandpal 1 Haikang Deng 1 Adam Roberts 2 Eric Wallace 3 Colin Raffel 1 Nikhil Kandpal 1 Haikang Deng 1 Adam Roberts 2 Eric Wallace 3 Colin Raffel 1 Abstract 摘要 The Internet con... 互联网蕴藏着丰富的知识——从历史人物的生日到编程教程——这些都可能被语言模型学习。然而,尽管某些信息在网络上无处不在,但其他信息却极为罕见。本文研究了大语言模型记忆的知识与从网络抓取的预训练数据集信息之间的关系。具体而言,我们发现语言模型回答基于事实问题的能力与预训练期间看到的与该问题相关的文档数量有关。我们通过实体链接预训练数据集并统计包含与给定问答对相同实体的文档来识别这些相关文档。我们的结果表明,在多个问答数据集(如TriviaQA)、预训练语料库(如ROOTS)和模型规模(如1760亿参数)中,准确率与相关文档数量之间存在强烈的相关性和因果关系。此外,虽然更大的模型更擅长学习长尾知识,但我们估计,当前模型必须扩大多个数量级才能在预训练数据支持极少的问题上达到有竞争力的问答性能。最后,我们展示了检索增强可以减少对相关预训练信息的依赖,为捕获长尾知识提供了一种有前景的方法。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理