• [博客翻译]TL;Andrej Karpathy的《深入学习像ChatGPT这样的LLM》博士

    ChatGPT等LLM的深入解析(TL;DR) 这篇深度解析适合谁? 几天前,Andrej Karpathy 发布了一段名为“ChatGPT等LLM的深入解析”的视频。这段视频信息量巨大,但也有3小时31分钟之长。我完整观看并做了大量笔记,所以觉得不妨整理出一个简短版本,方便那些希望快速获取关键点而不需要投入大块时间的人。 如果你符合以下情况,这篇文章和原始视频值得一看: 你想深入了解LLM的工作原理,而不仅仅是表面层面。 你想理解一些复杂的微调术语,如chat_template和ChatML(尤其是如果...
  • [博客翻译]推理模型只是LLM

    逻辑推理模型其实只是大语言模型(LLM) 在人工智能领域,一个长期争论的话题是:大型语言模型(LLM)是否能够实现真正有用的逻辑推理。过去,很多人认为LLM本质上是一个有缺陷的工具,无法开发出通用且实用的应用程序。然而,随着技术的发展,这些批评者开始调整自己的立场,试图证明自己并非完全错误。他们声称:“我们看到的进步是因为像OpenAI的o1或DeepSeek的R1这样的模型已经超越了传统的大语言模型。”但这种说法其实是不正确的,并且我们需要尽早揭示其中的误导性。 1. DeepSeek R1:纯解码器模型...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个AI写作智能体社区
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI知识快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理