我最近在折腾一个叫MiroFish的开源项目,群体智能预测引擎,GitHub上六万四千个star,刚开始我也没当回事,大模型套壳算命的那套东西看多了真有点审美疲劳,但翻完它的README发现思路挺有意思,不是做推断,而是做推演,让上百个虚拟人在一个数字社会里跑着看会发生什么,跟你拿模型猜结果完全是两码事。
2023年斯坦福的人搞了个25个agent的小镇,agent在那条虚拟街上溜达、聊天、反思,当时所有人都觉得这就是多智能体模拟的未来了,结果三年过去了,规模还是上不去,25个人你让他们怎么预测真实社会事件嘛。MiroFish直接把agent数量拉到了上千个,而且每个agent的记忆不是自己关起门来记日记,它们共享一个实体关系图谱,也就是说agent之间的记忆可以交叉引用,不像传统方案每个人只记得自己的经历。这是GraphRAG干的事,NVIDIA的工程师年初也发过一篇关于knowledge graph enhanced RAG的博客讨论类似思路,把种子信息里的实体和关系抽出来构建一张图,agent从这个图上获取记忆。A知道的事B顺着关系链也能推理到,不像纯向量检索碰到复杂因果关系就容易丢线索。
GraphRAG的思路其实不是MiroFish原创的,RAG社区讨论了大半年了,纯向量路线的天花板在哪大家心里都有数。把他们引擎拆开看底层是CAMEL-AI的OASIS框架,2025年初开源的,模块化做得不错所以定制起来方便。MiroFish等于是在OASIS上包了一层自己的逻辑,也就是图谱记忆、个体长期记忆接Zep Cloud、加上双平台并行对照,这些拼在一起才是一个完整的模拟流程,单独拎出来哪一块都不新鲜。
双平台并行这个我得讲一句,因为我踩过坑。同时跑两套环境,一套正常推,一套做对照,中间可以往实验组注入变量看差异,学术上叫AB测试,应用于社会模拟。
MiroFish团队是盛大的,对就是做游戏那个盛大。他们2024年就开始往agent方向塞人了但对外一声不吭,MiroFish算是头一个露面的项目,LinkedIn上几个核心成员CMU和清华背景,就十来个人的团队,issue回复倒是快基本24小时内有人接,这种小团队反而比大厂那几百人堆的产品有节奏感,你看他们的commit频率很稳定,不像大厂那种突然一波冲刺然后沉寂三个月,人少就是这样决策快、执行快、拖沓不起来,这种状态在大厂基本不可能维持,光审批流程就能卡你两周。
这让我想到一个有意思的点,这几年做AI的开源项目背后都有大厂影子。CAMEL-AI背后是阿布扎比的投资,OASIS有CAMEL的支撑,MiroFish有盛大,AgentSociety是清华牵头的。你几乎找不到纯草根团队做大规模社会模拟,计算成本摆在那呢,光API费就能把普通人劝退,MiroFish选通义千问qwen-plus也是出于成本考虑,qwen-plus的千token价格大概只有GPT-4的十分之一,一篇模拟报告跑下来几十块人民币,GPT-4跑同样体量的实验要几百美元,差了两个数量级,这对需要反复跑实验调参的研究者来说区别太大了,GPT-4跑一轮的钱够qwen-plus跑二十轮了,成本优势确实非常明显了。
跑MiroFish的流程是这样的。你喂一条种子信息进去,可以是舆情报告也可以是政策草案甚至金融信号。它自动抽实体建图谱生成agent,然后成百上千个agent在那个虚拟社会里交互演化,你随时可以注入变量干预,跑完给你一份结构化预测报告,注意是报告不是日志,它有个专门的ReportAgent带着搜索和统计工具去虚拟世界里反复验证才出报告,这一点跟别的框架很不一样,别家跑完模拟就扔一堆原始日志给你自己分析去。
靠谱程度这事你得清楚,你给它一篇城市规划草案做种子,它不会告诉你某块地房价涨多少,它告诉你这片居民大概什么情绪,哪些群体会反对,舆论怎么发酵,第十五天左右见顶然后慢慢衰退。这种判断跟算命不一样,算命是拍一个精确结论出来让你信不信由你,这个是给你一条趋势链你自己判断靠不靠谱,反正信息量比拍脑袋强。
说到竞品,斯坦福那个小镇25个agent开了个头就没然后了,规模太小,定制性也弱,你基本上只能跑它规定的那些场景。AgentSociety走数字孪生路线做政策评估倒是正经,但部署一圈下来得好几天,光环境配置就能把人逼疯。OASIS底层引擎还不错,但它只管引擎层,你想拿来做完整模拟,还得自己补一大堆应用层的代码。MiroFish倒好,直接给你一个能跑的完整闭环,设定好种子就能出报告,规模也够大,能到上千agent,我M1 Pro实测45分钟跑完一轮完整模拟,比AgentSociety那种动辄几天的部署周期轻太多。
他们还做了两个挺邪门的demo。一个拿武大舆情报告跑舆论传播模拟,录了视频搁在assets目录下面,另一个拿红楼梦前八十回做种子推后四十回可能的走向。宝玉出没出家,黛玉活下来会怎样,宝钗结局真的是那样吗,严格说这跟曹雪芹怎么写完全是两码事。但把小说角色当agent,把前八十回人物关系当图谱,还真能推出来一些有意思的走向,对话日志里偶尔蹦出个现代用语倒无所谓了,还有人提过拿这方法推金瓶梅散佚回目,不知道团队会不会做。
部署这块后端Python 3.11到3.12前端Node.js 18以上。LLM后端推荐通义千问qwen-plus走百炼平台,长期记忆接Zep Cloud有免费额度。Docker拉起来十分钟见界面想深度定制再切源码,npm run setup:all装依赖,npm run dev启前后端。但API消耗大,先跑40轮以内试试水。我头一回跑满200轮账单肉疼,光docker那一步就等了快二十分钟,拉镜像的时候网速不太稳定还断了一次重来的,建议直接用国内镜像源会快不少,加上后面的推理跑下来总共花了将近三个小时,通义千问虽比GPT-4便宜,但几百个agent,跑几百轮也是不小开支。先小规模短轮次验证种子质量,靠谱了再放大规模跑长轮次,这样做的好处不只是省钱,还能在干净的对照基础上观察变量注入效果,不然一开始就大炮打蚊子,跑完了也分不清哪些结果是变量引起的,哪些是噪音,
问题一大堆。agent跑多了说话都一个味,temperature调低没改善调高就跑偏,我0.3试过0.9也试过都不理想。同质化从根本上看是大模型概率采样结构性的毛病短期没解,seed质量决定图谱质量垃圾进垃圾出,验证环节更是个大黑洞,社会事件没法像物理实验那样重跑一遍对照,而且真实社会变量太多你根本控制不了混杂因素,天气预报好歹还能拿历史数据回测,社会模拟连回测数据集都几乎没有。MIT发过一些社会实验数据但规模维度差得远。
但这些都挡不住这项目的价值。就是让你搭个沙盘让涌现自己跑出来,跟提示词工程和RAG套壳都不一路,到底好不好使得自己跑,仓库开源了clone下来十分钟就能玩起来了。
来源
- MiroFish GitHub仓库 — github.com/666ghj/MiroFish
- Generative Agents: Interactive Simulacra of Human Behavior — Stanford, UIST 2023
- OASIS: Open Agent Social Interaction Simulations — CAMEL-AI, 2025
- AgentSociety: Large-Scale LLM Agent Social Simulation — 清华大学, 2024-2025
以上,既然看到这里了,如果觉得不错,随手点个赞,在看,转发三连吧,如果想抢先收到推送,也可以给我个星标⭐~
谢谢你的阅读,下次再见。
作者 AISet
