Claude Code 会做梦，但你的 Agent 记忆系统可能更像阿尔茨海默

icodebase 2026-04-03 16:44:21 AIGC Claude CodeAgent 收藏

0 / 190

上午刷到不少人在聊 Claude Code 的 Auto Dream——就是 AI 自己在后台整理记忆笔记。评论区一片"好厉害""像人类做梦一样"，还有人扯到海马体和睡眠纺锤波。

我当时就乐了。

因为我正好手上有 claw_code 的源码——就是 Claude Code 泄露之后社区搞的开源复刻版。翻了一圈代码之后再看那些讨论，怎么说呢，就好比有人跟你吹他家扫地机器人有自主意识，你拆开一看里面是个定时器加两个红外传感器。

记忆存在哪？你猜

先说个让人破防的事实。

Claude Code 的"记忆系统"，存储介质是什么？Redis？向量数据库？知识图谱？

都不是。

~/.claude/projects/你的项目名/memory/ 下面的 .md 文件。

对。Markdown。纯文本。MEMORY.md 当索引，底下按 user、feedback、project、reference 分了四类子文件。每次开新对话读前 200 行，看情况再翻翻其他的。

一个带分类的记事本。你用 Notion 都比这高级。

所以 Auto Dream 那四步——看看之前记了啥、翻对话找有用的、合并去重、修剪索引——本质就是个文本处理脚本。24 小时触发一次，攒够 5 个对话才跑。后台开个子代理来干活，对代码只读。

这就是"做梦"的全部真相。

上下文压缩这事也没啥神秘的

claw_code 的 Rust 版里有个 compact.rs，上下文管理的核心逻辑：

pub struct CompactionConfig {
    pub preserve_recent_messages: usize,  // 保留最近 4 条
    pub max_estimated_tokens: usize,      // 上限 10000 token
}

超了就把旧消息压缩成摘要，最近几条保留原文。ChatGPT 聊久了弹的"让我总结一下之前的对话"，就这东西，换了个名字。

不过 Anthropic 今天发的那篇官方博客《Harnessing Claude's Intelligence》里有个数据挺扎心的——同一套压缩代码，Sonnet 4.5 在 BrowseComp 上死活 43%，Opus 4.6 直接干到 84%。

一模一样的代码啊。差了一倍。

压缩算法谁都会写，但该留啥该扔啥，是脑子决定的。这东西你工程层面优化不了，模型不够聪明就是不够聪明。

这让我想起来上学的时候，同样的课、同样的笔记本，有人记的是"老师今天穿了红色衣服"，有人记的是"这个公式变形后可以解第三章所有题"。工具一样，脑子不一样。

CLAUDE.md 写太长？Claude 真不看

prompt.rs 里扒出来的：启动时从工作目录往上找 CLAUDE.md 那些指令文件，总预算 12000 字符，单文件上限 4000。超了直接截断。

就是说你写了一万字的"使用规范"？后面六千字白写。

Anthropic 官方博客管这叫"注意力预算"。他们现在推的方案是 Agent Skills——短描述放上下文里当目录，详细内容 Claude 自己按需去读。

我觉得这思路对。你去餐厅不会把菜谱从头到尾读一遍，你看目录，看哪个分类感兴趣，再翻到那页。给 AI 塞一整本说明书属于把人家当复读机了。

让 AI 打宝可梦就什么都看出来了

官方博客里最绝的是一个宝可梦实验。

Sonnet 3.5 玩了 14000 步，写了 31 个记忆文件。其中两个几乎一样的内容——都在记绿毛虫没毒独角虫有毒。还专门加了一句"这个信息对未来战斗很重要"。

哥，你都记了两遍了，还在第二个城镇转圈呢。重要个锤子。

Opus 4.6 同样 14000 步。10 个文件，分了目录，拿了三个道馆徽章。它还搞了个踩坑记录：

- 喇叭芽的催眠+绑紧连招：咬咬速杀，别让它放催眠粉
- 背包上限20个：进迷宫前扔掉没用的技术机器
- 旋转地板：不同Y坐标入口通向不同地方，全试一遍

前者在记流水账，后者在写攻略。

这个对比比任何技术分析都说明问题——Auto Dream 再怎么整理，如果模型本身分不清什么值得记、什么是废话，整理出来的还是一堆有条理的废话。

那 Anthropic 自己怎么想的？

他们博客里反复问的一个问题特别有意思：你能不做什么？

是"不做"，不是"多做"。

他们发现给 Agent 框架加的很多功能，过一段时间就变成累赘了。比如 Sonnet 4.5 跑长任务快到上下文极限的时候会慌——跟考试最后五分钟似的，不管答没答完先交卷。团队加了个上下文重置机制来修。到 Opus 4.5 的时候这个毛病自己好了，之前写的修复代码成了废代码。

所以他们现在的态度是：少替 Claude 操心。 给它一个文件夹让它自己读写，比你搭一整套 RAG 管线可能效果还好——BrowseComp-Plus 上光一个文件夹就涨了 7 个百分点准确率。没有向量数据库，没有 embedding。

他们原话："Agent 框架里的每个假设都有保质期。"

嗯，挺实诚的。

Auto Dream 没解决的那些事

夸完了说问题。

语义检索——2026 年了还在逐行读 Markdown，这个我真的很想吐槽。你有一千条记忆，找相关的那三条就只能从头读到尾？

跨项目迁移——A 项目踩的坑，B 项目再踩一遍。记忆按项目隔离，经验不共享。

还有一个更根本的：它分不清"事件"和"知识"。"老板周三说换方案 B"是事件，"方案 B 的 latency 比 A 低 40%，适合高并发场景"是知识。Auto Memory 记的全是前者，Auto Dream 整理的也还是前者，只是更整齐了。

整理完是干净了，但有用的东西一开始就没记上去，你把废话排列组合一百遍还是废话。

对了 claw_code 里还翻到几个没上线的命令——kairos 是长驻后台模式，coordinator、swarm 也在。Anthropic 在搞多 Agent 常驻了。真等 Claude 一直在后台跑着的时候，这个"做梦"可能就不是每天跑一次脚本那么简单了。

博客还提到 subagent——Claude 越来越会判断什么时候该分出一个新窗口去干别的活，BrowseComp 上用 subagent 多了 2.8%。如果它自己能决定什么时候分叉、什么时候合并、什么时候该忘掉一些东西——

那我们现在手写的这些记忆管理代码，迟早全得删。

说到底，拿"做梦"来比这个功能，方向是对的。人做梦的时候大脑在完全不搭界的记忆片段之间乱接线，你小学同学和外星人一起吃火锅那种。这种乱接线产生的意外联想才是做梦真正值钱的地方。

现在的 Auto Dream 干的是收拾桌面，不是乱接线。

但 Pokémon 实验里 Opus 4.6 从"走迷宫走错路"里提炼出"旋转地板要试所有入口"——这已经有点跨场景联想的意思了。

离真正做梦可能也没那么远。可能。

参考：Anthropic《Harnessing Claude's Intelligence》/ claw_code 开源项目源码

阅读全文