六万四千个star，MiroFish凭什么做到群体智能预测开源第一

我最近在折腾一个叫MiroFish的开源项目，群体智能预测引擎，GitHub上六万四千个star，刚开始我也没当回事，大模型套壳算命的那套东西看多了真有点审美疲劳，但翻完它的README发现思路挺有意思，不是做推断，而是做推演，让上百个虚拟人在一个数字社会里跑着看会发生什么，跟你拿模型猜结果完全是两码事。

2023年斯坦福的人搞了个25个agent的小镇，agent在那条虚拟街上溜达、聊天、反思，当时所有人都觉得这就是多智能体模拟的未来了，结果三年过去了，规模还是上不去，25个人你让他们怎么预测真实社会事件嘛。MiroFish直接把agent数量拉到了上千个，而且每个agent的记忆不是自己关起门来记日记，它们共享一个实体关系图谱，也就是说agent之间的记忆可以交叉引用，不像传统方案每个人只记得自己的经历。这是GraphRAG干的事，NVIDIA的工程师年初也发过一篇关于knowledge graph enhanced RAG的博客讨论类似思路，把种子信息里的实体和关系抽出来构建一张图，agent从这个图上获取记忆。A知道的事B顺着关系链也能推理到，不像纯向量检索碰到复杂因果关系就容易丢线索。

GraphRAG的思路其实不是MiroFish原创的，RAG社区讨论了大半年了，纯向量路线的天花板在哪大家心里都有数。把他们引擎拆开看底层是CAMEL-AI的OASIS框架，2025年初开源的，模块化做得不错所以定制起来方便。MiroFish等于是在OASIS上包了一层自己的逻辑，也就是图谱记忆、个体长期记忆接Zep Cloud、加上双平台并行对照，这些拼在一起才是一个完整的模拟流程，单独拎出来哪一块都不新鲜。

双平台并行这个我得讲一句，因为我踩过坑。同时跑两套环境，一套正常推，一套做对照，中间可以往实验组注入变量看差异，学术上叫AB测试，应用于社会模拟。

MiroFish团队是盛大的，对就是做游戏那个盛大。他们2024年就开始往agent方向塞人了但对外一声不吭，MiroFish算是头一个露面的项目，LinkedIn上几个核心成员CMU和清华背景，就十来个人的团队，issue回复倒是快基本24小时内有人接，这种小团队反而比大厂那几百人堆的产品有节奏感，你看他们的commit频率很稳定，不像大厂那种突然一波冲刺然后沉寂三个月，人少就是这样决策快、执行快、拖沓不起来，这种状态在大厂基本不可能维持，光审批流程就能卡你两周。

这让我想到一个有意思的点，这几年做AI的开源项目背后都有大厂影子。CAMEL-AI背后是阿布扎比的投资，OASIS有CAMEL的支撑，MiroFish有盛大，AgentSociety是清华牵头的。你几乎找不到纯草根团队做大规模社会模拟，计算成本摆在那呢，光API费就能把普通人劝退，MiroFish选通义千问qwen-plus也是出于成本考虑，qwen-plus的千token价格大概只有GPT-4的十分之一，一篇模拟报告跑下来几十块人民币，GPT-4跑同样体量的实验要几百美元，差了两个数量级，这对需要反复跑实验调参的研究者来说区别太大了，GPT-4跑一轮的钱够qwen-plus跑二十轮了，成本优势确实非常明显了。

跑MiroFish的流程是这样的。你喂一条种子信息进去，可以是舆情报告也可以是政策草案甚至金融信号。它自动抽实体建图谱生成agent，然后成百上千个agent在那个虚拟社会里交互演化，你随时可以注入变量干预，跑完给你一份结构化预测报告，注意是报告不是日志，它有个专门的ReportAgent带着搜索和统计工具去虚拟世界里反复验证才出报告，这一点跟别的框架很不一样，别家跑完模拟就扔一堆原始日志给你自己分析去。

靠谱程度这事你得清楚，你给它一篇城市规划草案做种子，它不会告诉你某块地房价涨多少，它告诉你这片居民大概什么情绪，哪些群体会反对，舆论怎么发酵，第十五天左右见顶然后慢慢衰退。这种判断跟算命不一样，算命是拍一个精确结论出来让你信不信由你，这个是给你一条趋势链你自己判断靠不靠谱，反正信息量比拍脑袋强。

说到竞品，斯坦福那个小镇25个agent开了个头就没然后了，规模太小，定制性也弱，你基本上只能跑它规定的那些场景。AgentSociety走数字孪生路线做政策评估倒是正经，但部署一圈下来得好几天，光环境配置就能把人逼疯。OASIS底层引擎还不错，但它只管引擎层，你想拿来做完整模拟，还得自己补一大堆应用层的代码。MiroFish倒好，直接给你一个能跑的完整闭环，设定好种子就能出报告，规模也够大，能到上千agent，我M1 Pro实测45分钟跑完一轮完整模拟，比AgentSociety那种动辄几天的部署周期轻太多。

他们还做了两个挺邪门的demo。一个拿武大舆情报告跑舆论传播模拟，录了视频搁在assets目录下面，另一个拿红楼梦前八十回做种子推后四十回可能的走向。宝玉出没出家，黛玉活下来会怎样，宝钗结局真的是那样吗，严格说这跟曹雪芹怎么写完全是两码事。但把小说角色当agent，把前八十回人物关系当图谱，还真能推出来一些有意思的走向，对话日志里偶尔蹦出个现代用语倒无所谓了，还有人提过拿这方法推金瓶梅散佚回目，不知道团队会不会做。

部署这块后端Python 3.11到3.12前端Node.js 18以上。LLM后端推荐通义千问qwen-plus走百炼平台，长期记忆接Zep Cloud有免费额度。Docker拉起来十分钟见界面想深度定制再切源码，npm run setup:all装依赖，npm run dev启前后端。但API消耗大，先跑40轮以内试试水。我头一回跑满200轮账单肉疼，光docker那一步就等了快二十分钟，拉镜像的时候网速不太稳定还断了一次重来的，建议直接用国内镜像源会快不少，加上后面的推理跑下来总共花了将近三个小时，通义千问虽比GPT-4便宜，但几百个agent，跑几百轮也是不小开支。先小规模短轮次验证种子质量，靠谱了再放大规模跑长轮次，这样做的好处不只是省钱，还能在干净的对照基础上观察变量注入效果，不然一开始就大炮打蚊子，跑完了也分不清哪些结果是变量引起的，哪些是噪音，

问题一大堆。agent跑多了说话都一个味，temperature调低没改善调高就跑偏，我0.3试过0.9也试过都不理想。同质化从根本上看是大模型概率采样结构性的毛病短期没解，seed质量决定图谱质量垃圾进垃圾出，验证环节更是个大黑洞，社会事件没法像物理实验那样重跑一遍对照，而且真实社会变量太多你根本控制不了混杂因素，天气预报好歹还能拿历史数据回测，社会模拟连回测数据集都几乎没有。MIT发过一些社会实验数据但规模维度差得远。

但这些都挡不住这项目的价值。就是让你搭个沙盘让涌现自己跑出来，跟提示词工程和RAG套壳都不一路，到底好不好使得自己跑，仓库开源了clone下来十分钟就能玩起来了。

来源

MiroFish GitHub仓库 — github.com/666ghj/MiroFish
Generative Agents: Interactive Simulacra of Human Behavior — Stanford, UIST 2023
OASIS: Open Agent Social Interaction Simulations — CAMEL-AI, 2025
AgentSociety: Large-Scale LLM Agent Social Simulation — 清华大学, 2024-2025

以上，既然看到这里了，如果觉得不错，随手点个赞，在看，转发三连吧，如果想抢先收到推送，也可以给我个星标⭐～
谢谢你的阅读，下次再见。

作者 AISet