[博客翻译]推理模型只是LLM


原文地址:https://antirez.com/news/146


逻辑推理模型其实只是大语言模型(LLM)

在人工智能领域,一个长期争论的话题是:大型语言模型(LLM)是否能够实现真正有用的逻辑推理。过去,很多人认为LLM本质上是一个有缺陷的工具,无法开发出通用且实用的应用程序。然而,随着技术的发展,这些批评者开始调整自己的立场,试图证明自己并非完全错误。他们声称:“我们看到的进步是因为像OpenAI的o1或DeepSeek的R1这样的模型已经超越了传统的大语言模型。”但这种说法其实是不正确的,并且我们需要尽早揭示其中的误导性。

1. DeepSeek R1:纯解码器模型

首先,以DeepSeek R1为例(这里暂不讨论o1或o3,因为它们是私有的,但我们推测它们的工作原理类似)。R1是一个纯粹的自回归解码器模型,它仍然是通过预测下一个词的方式来生成文本。在这个模型中,并没有任何显式的符号推理或表示能力。这与之前被广泛批评的“仅仅通过预测下一个词”的方法是一样的。

2. 无需监督微调的推理能力

此外,DeepSeek的R1 Zero模型展示了类似的推理能力,而它甚至不需要任何监督式微调。只需通过生成思维链并结合强化学习中的奖励函数对其进行优化,就能让模型学会更强的推理能力。有趣的是,这些能力还可以通过指令微调(SFT)轻松转移到更小的模型中。

3. 少量示例即可构建复杂推理

更重要的是,DeepSeek发布的S1论文表明,模型只需要极少的训练示例(例如仅1000个),就能够开始构建复杂的推理步骤,解决非平凡的数学问题。S1和R1 Zero的结果暗示,在预训练阶段,模型可能已经通过无监督的下文预测任务学会了用于推理所需的表示方法。

4. 预训练的力量

因此,不仅仅是因为R1的基本结构是一个简单的LLM,更重要的是,无监督的预训练过程为模型提供了足够的表示能力和潜力。当LLM足够强大时,通过强化学习(RL)或者轻微的指令微调(SFT),它就可以学会回答用户提出的复杂问题,使用思维链进行推理,提供更好的答案。

总结

逻辑推理模型实际上就是大语言模型的一种应用形式。那些曾经认为LLM是死胡同的观点是错误的。当然,犯错本身是很正常的事情(尽管在这种情况下,某些人对证据的否认表现得特别强烈)。然而,试图篡改历史或改变术语,以便让自己显得站在正确的一方,在我看来是不可接受的。


希望这篇科普文章能帮助大家更好地理解为什么现代逻辑推理模型实际上是建立在大语言模型基础上的。这也再次证明了AI领域的快速进步和发展!