我们认为，大型语言模型（LLM）所展现的智能——包括可扩展性、指令遵循能力、上下文学习能力、对话能力和压缩能力——并非源于自回归机制本身，而是源于生成建模的核心原则：通过最大似然估计近似真实的语言分布。

[博客翻译]TL；Andrej Karpathy的《深入学习像ChatGPT这样的LLM》博士

ChatGPT等LLM的深入解析（TL;DR）这篇深度解析适合谁？几天前，Andrej Karpathy 发布了一段名为“ChatGPT等LLM的深入解析”的视频。这段视频信息量巨大，但也有3小时31分钟之长。我完整观看并做了大量笔记，所以觉得不妨整理出一个简短版本，方便那些希望快速获取关键点而不需要投入大块时间的人。如果你符合以下情况，这篇文章和原始视频值得一看：你想深入了解LLM的工作原理，而不仅仅是表面层面。你想理解一些复杂的微调术语，如chat_template和ChatML（尤其是如果...

由 openoker发布于 2025-02-10 16:35:31 大模型参数微调预训练随机性阅读次数 821

[博客翻译]大型语言扩散模型

[博客翻译]TL；Andrej Karpathy的《深入学习像ChatGPT这样的LLM》博士