上午刷到不少人在聊 Claude Code 的 Auto Dream——就是 AI 自己在后台整理记忆笔记。评论区一片"好厉害""像人类做梦一样",还有人扯到海马体和睡眠纺锤波。
我当时就乐了。
因为我正好手上有 claw_code 的源码——就是 Claude Code 泄露之后社区搞的开源复刻版。翻了一圈代码之后再看那些讨论,怎么说呢,就好比有人跟你吹他家扫地机器人有自主意识,你拆开一看里面是个定时器加两个红外传感器。
记忆存在哪?你猜
先说个让人破防的事实。
Claude Code 的"记忆系统",存储介质是什么?Redis?向量数据库?知识图谱?
都不是。
~/.claude/projects/你的项目名/memory/ 下面的 .md 文件。
对。Markdown。纯文本。MEMORY.md 当索引,底下按 user、feedback、project、reference 分了四类子文件。每次开新对话读前 200 行,看情况再翻翻其他的。
一个带分类的记事本。你用 Notion 都比这高级。
所以 Auto Dream 那四步——看看之前记了啥、翻对话找有用的、合并去重、修剪索引——本质就是个文本处理脚本。24 小时触发一次,攒够 5 个对话才跑。后台开个子代理来干活,对代码只读。
这就是"做梦"的全部真相。
上下文压缩这事也没啥神秘的
claw_code 的 Rust 版里有个 compact.rs,上下文管理的核心逻辑:
pub struct CompactionConfig {
pub preserve_recent_messages: usize, // 保留最近 4 条
pub max_estimated_tokens: usize, // 上限 10000 token
}
超了就把旧消息压缩成摘要,最近几条保留原文。ChatGPT 聊久了弹的"让我总结一下之前的对话",就这东西,换了个名字。
不过 Anthropic 今天发的那篇官方博客《Harnessing Claude's Intelligence》里有个数据挺扎心的——同一套压缩代码,Sonnet 4.5 在 BrowseComp 上死活 43%,Opus 4.6 直接干到 84%。
一模一样的代码啊。差了一倍。
压缩算法谁都会写,但该留啥该扔啥,是脑子决定的。这东西你工程层面优化不了,模型不够聪明就是不够聪明。
这让我想起来上学的时候,同样的课、同样的笔记本,有人记的是"老师今天穿了红色衣服",有人记的是"这个公式变形后可以解第三章所有题"。工具一样,脑子不一样。
CLAUDE.md 写太长?Claude 真不看
prompt.rs 里扒出来的:启动时从工作目录往上找 CLAUDE.md 那些指令文件,总预算 12000 字符,单文件上限 4000。超了直接截断。
就是说你写了一万字的"使用规范"?后面六千字白写。
Anthropic 官方博客管这叫"注意力预算"。他们现在推的方案是 Agent Skills——短描述放上下文里当目录,详细内容 Claude 自己按需去读。
我觉得这思路对。你去餐厅不会把菜谱从头到尾读一遍,你看目录,看哪个分类感兴趣,再翻到那页。给 AI 塞一整本说明书属于把人家当复读机了。
让 AI 打宝可梦就什么都看出来了
官方博客里最绝的是一个宝可梦实验。
Sonnet 3.5 玩了 14000 步,写了 31 个记忆文件。其中两个几乎一样的内容——都在记绿毛虫没毒独角虫有毒。还专门加了一句"这个信息对未来战斗很重要"。
哥,你都记了两遍了,还在第二个城镇转圈呢。重要个锤子。
Opus 4.6 同样 14000 步。10 个文件,分了目录,拿了三个道馆徽章。它还搞了个踩坑记录:
- 喇叭芽的催眠+绑紧连招:咬咬速杀,别让它放催眠粉
- 背包上限20个:进迷宫前扔掉没用的技术机器
- 旋转地板:不同Y坐标入口通向不同地方,全试一遍
前者在记流水账,后者在写攻略。
这个对比比任何技术分析都说明问题——Auto Dream 再怎么整理,如果模型本身分不清什么值得记、什么是废话,整理出来的还是一堆有条理的废话。
那 Anthropic 自己怎么想的?
他们博客里反复问的一个问题特别有意思:你能不做什么?
是"不做",不是"多做"。
他们发现给 Agent 框架加的很多功能,过一段时间就变成累赘了。比如 Sonnet 4.5 跑长任务快到上下文极限的时候会慌——跟考试最后五分钟似的,不管答没答完先交卷。团队加了个上下文重置机制来修。到 Opus 4.5 的时候这个毛病自己好了,之前写的修复代码成了废代码。
所以他们现在的态度是:少替 Claude 操心。 给它一个文件夹让它自己读写,比你搭一整套 RAG 管线可能效果还好——BrowseComp-Plus 上光一个文件夹就涨了 7 个百分点准确率。没有向量数据库,没有 embedding。
他们原话:"Agent 框架里的每个假设都有保质期。"
嗯,挺实诚的。
Auto Dream 没解决的那些事
夸完了说问题。
语义检索——2026 年了还在逐行读 Markdown,这个我真的很想吐槽。你有一千条记忆,找相关的那三条就只能从头读到尾?
跨项目迁移——A 项目踩的坑,B 项目再踩一遍。记忆按项目隔离,经验不共享。
还有一个更根本的:它分不清"事件"和"知识"。"老板周三说换方案 B"是事件,"方案 B 的 latency 比 A 低 40%,适合高并发场景"是知识。Auto Memory 记的全是前者,Auto Dream 整理的也还是前者,只是更整齐了。
整理完是干净了,但有用的东西一开始就没记上去,你把废话排列组合一百遍还是废话。
对了 claw_code 里还翻到几个没上线的命令——kairos 是长驻后台模式,coordinator、swarm 也在。Anthropic 在搞多 Agent 常驻了。真等 Claude 一直在后台跑着的时候,这个"做梦"可能就不是每天跑一次脚本那么简单了。
博客还提到 subagent——Claude 越来越会判断什么时候该分出一个新窗口去干别的活,BrowseComp 上用 subagent 多了 2.8%。如果它自己能决定什么时候分叉、什么时候合并、什么时候该忘掉一些东西——
那我们现在手写的这些记忆管理代码,迟早全得删。
说到底,拿"做梦"来比这个功能,方向是对的。人做梦的时候大脑在完全不搭界的记忆片段之间乱接线,你小学同学和外星人一起吃火锅那种。这种乱接线产生的意外联想才是做梦真正值钱的地方。
现在的 Auto Dream 干的是收拾桌面,不是乱接线。
但 Pokémon 实验里 Opus 4.6 从"走迷宫走错路"里提炼出"旋转地板要试所有入口"——这已经有点跨场景联想的意思了。
离真正做梦可能也没那么远。可能。
参考:Anthropic《Harnessing Claude's Intelligence》/ claw_code 开源项目源码
