斯蒂芬·奥内斯科学3月24日,2024年08:00大型语言模型的涌现能力可能是个幻象在一项名为“超越模仿游戏基准”(Beyond the Imitation Game benchmark, 或 BIG-bench)的项目中,450位研究人员编纂了一份包含204项任务的列表,旨在测试大型语言模型(如ChatGPT聊天机器人)的能力。在大多数任务中,随着模型的规模扩大,性能通常会稳定提升——模型越大,表现越好。但在其他任务中,能力的提升并不平稳。一段时间内性能保持在接近零的水平,然后突然提升。其他研究也发现了类似的跳跃性能力提升。作者将这种行为描述为“突破”行为;其他研究者将其类比为物理学中的相变,比如液态水结冰的过程。2022年8月发表的一篇论文指出,这些行为不仅令人惊讶,而且不可预测,它们应该影响关于AI安全、潜力和风险的讨论。他们将这些能力称为“涌现”,这个词描述的是系统达到高度复杂性后才会出现的集体行为。
然而,事情可能没那么简单。斯坦福大学的研究团队提出,大型语言模型突然显现的能力实际上是研究人员衡量模型性能方式的结果。他们认为,这些能力既不是不可预测的,也不是突然出现的。“这种转变比人们想象的更可预测。”计算机科学家Sanmi Koyejo表示,他是该论文的资深作者。“关于涌现的强烈说法与其说与模型的实际行为有关,不如说与我们选择的衡量方式有关。”
我们之所以现在才观察到并研究这种行为,是因为模型的规模已经变得如此之大。大型语言模型通过分析包含来自在线资源(如书籍、网络搜索和维基百科)的大量文本数据来训练,寻找经常一起出现的单词之间的联系。模型的规模通常用参数来衡量,大致相当于单词连接的方式数量。参数越多,大型语言模型能够发现的连接就越多。GPT-2有15亿个参数,而驱动ChatGPT的GPT-3.5使用了3500亿个参数。GPT-4于2023年3月发布,现由微软Copilot支持,据报道使用了1750万亿个参数。
这种快速的增长带来了惊人的性能提升和效率提升,没有人质疑足够大的大型语言模型能够完成小型模型无法完成的任务,包括它们未曾训练的任务。斯坦福大学的研究团队将涌现称为“幻象”,他们承认随着模型的扩展,其效果会增强;实际上,更大的模型的复杂性使得解决更困难、更多样化的问题变得可能。但他们认为,这种改进是平滑且可预测的还是突然且尖锐的,取决于选择的度量标准,甚至可能是测试样例的不足,而非模型的内在运作方式。
举个例子,三位数加法就是一个例子。在2022年的BIG-bench研究中,研究人员报告说,参数较少时,GPT-3和另一个名为LAMDA的语言模型都无法准确完成加法问题。然而,当GPT-3使用130亿参数进行训练时,其能力似乎瞬间改变。突然间,它能够进行加法运算,而LAMDA在680亿参数时也能做到。这表明加法能力在达到某个阈值时会涌现出来。
然而,斯坦福的研究人员指出,他们仅基于准确性来评判模型:要么完美完成,要么无法完成。所以即使模型预测出大多数数字正确,如果结果不正确,它也会失败。如果计算100加278,那么376作为答案显然比-9.34更准确。
因此,Koyejo和