ChatGPT等LLM的深入解析（TL;DR）

这篇深度解析适合谁？

几天前，Andrej Karpathy 发布了一段名为“ChatGPT等LLM的深入解析”的视频。这段视频信息量巨大，但也有3小时31分钟之长。我完整观看并做了大量笔记，所以觉得不妨整理出一个简短版本，方便那些希望快速获取关键点而不需要投入大块时间的人。

如果你符合以下情况，这篇文章和原始视频值得一看：

虽然我不会涵盖视频中的所有内容，但如果时间允许，强烈建议观看完整版。但如果你没有那么多时间，本文将为你提供核心要点。

注意：如果你正在寻找Andrej为该视频制作的excalidraw图示，可以从这里下载。他通过Google Drive分享了这个文件，但链接会在一段时间后失效，因此我决定也在我的CDN上托管一份。

LLM首先通过爬取互联网构建庞大的文本数据集。然而，原始数据嘈杂且包含大量重复、低质量及无关内容。因此，在训练之前需要进行严格的筛选。

清理后，数据仍需压缩为可用格式。原始文本不直接输入模型，而是转换成结构化、数值化的表示形式——即令牌。

分词是指模型在处理文本之前将其拆分为更小的部分（令牌）。模型并非存储原始单词，而是将它们转换为代表重复模式的ID。

一旦数据被分词，就会被输入神经网络。以下是这一过程的工作方式：

更大的上下文窗口意味着模型可以“记住”更多输入，但也增加了计算成本。

在模型内部，数十亿参数与输入令牌交互以生成下一个令牌的概率分布。

LLM并不生成确定性输出，而是具有随机性。这意味着每次运行模型时输出都会略有不同。

这种随机性使LLM能够创造，但同时也可能导致它们幻想不正确的信息。

OpenAI在2019年发布的GPT-2是一个早期的基于Transformer的LLM例子。以下是它的概况：