1. WHY——为什么提出这项研究?
在肿瘤学尤其是乳腺癌临床中,治疗方案需要紧密跟随不断更新的NCCN指南,而这些指南内容庞大、更新频率高。
医生常面临以下挑战:
- 信息繁杂、难以及时掌握:NCCN 指南包含大量的诊疗流程、表格、药物组合,且版本更新频繁,临床医生难以全面、及时地查询和整合。
- 个体化医疗需求高:乳腺癌患者的肿瘤类型、分期、基因检测结果等情况差异大,制定专属的治疗方案需要综合多重信息,人工查询时容易遗漏或出错。
- 治疗决策压力大:少数错误或不准确的治疗策略可能显著影响患者预后,甚至带来严重后果。
假如没有参考最新指南,或者只是凭医生个人记忆和过去经验来制定方案,可能出现治疗方案滞后(与新标准不符)、药物不适配(使用了过时或并不适用该分型的药物),甚至对高危因素处理不当。
这种情况下,患者的治疗效果可能受到负面影响。
为此,论文提出了一个,能够自动检索、匹配并生成个性化的 NCCN 乳腺癌治疗建议,以减轻医生负担、提高诊疗效率和准确率。
- 方法: 两个主要系统 Agentic-RAG 和 Graph-RAG
数据显示:
- Agentic-RAG 达到 100% 的 NCCN 指南符合率,无幻觉、无错误,主要得益于多轮 LLM 调用和最终的“Insufficiency Check”。
- Graph-RAG 约为 95.8% 的符合率,比 ChatGPT-4(约 94%)还要高;仅出现一次遗漏(错过了某治疗选项),无幻觉。
- ChatGPT-4 作为基线,虽表现不俗,但因没有结构化检索机制,会出现遗漏或不够精确的问题。
- 使用 16个临床场景(不同乳腺癌类型、分期、治疗史)进行测试,每种场景下包含4种问法; 共计产生了 64 条查询数据。
论文团队将 NCCN 指南中涉及乳腺癌的关键信息(尤其是流程图、诊疗路径、推荐用药等)转化为 JSON 数据格式,最大程度保留了原文献的准确内容,并由人工或专家进行复核,确保所用数据真实、完整。
主要发现:
Agentic-RAG 在多轮审查机制下,能够100%贴合 NCCN 指南(无幻觉、无错误推荐),且数据可溯源能力好,提供了相应的原文出处页码引用;
Graph-RAG 也能高质量输出治疗方案,并以图结构进行关系管理; 偶尔会因为图谱维度覆盖不全而遗漏个别治疗
相比之下,单纯依赖 ChatGPT-4 (94%)容易出现遗漏或无引用的情况。
解法拆解
- 子解法1:数据预处理(Data Preprocessing)
- 之所以用数据预处理子解法,是因为:NCCN指南多以PDF、图表、流转流程的形式存在,必须转化为可供检索和结构化的格式(JSON)才能被后续的RAG模型有效利用。
- 具体做法:
(1.1) 将NCCN指南PDF中的文字、表格、流程图等,转换为JSON格式;
(1.2) 每个JSON对象/文档记录对应一页或一段NCCN信息;
(1.3) 便于后续使用LLM来做基于文本检索(如语义匹配和索引)的工作。
- 子解法2:Agentic-RAG 方法
之所以用Agentic-RAG子解法,是因为:需要在生成治疗方案时做到“多轮自动检查”、“自动检索”、“逐步完善”,以确保不遗漏任何重要治疗选项,并且要对照NCCN最新标准避免幻觉。
该子解法又可进一步拆解为 4 个更具体的子步骤:
(2.1) 标题/主题选择(Title Selection)
之所以用标题选择子解法,是因为:需要先确定对患者病情最相关的NCCN子章节、标题或者主题页面,然后再缩小检索范围,提升准确率。
(2.2) JSON检索(JSON Retrieval)
之所以用JSON检索子解法,是因为:在上一步确定了最相关的NCCN章节或主题后,需要到JSON数据中去精准定位对应的关键信息(如治疗原则、分期、分子分型等)。
(2.3) 治疗方案初步生成(Treatment Recommendation Generation)
之所以用初步生成子解法,是因为:在获取到相关NCCN内容后,需要LLM根据患者信息与检索到的内容“组合”出一个初步的治疗推荐方案。
(2.4) 不足/遗漏检查(Insufficiency Check)
之所以用不足检查子解法,是因为:LLM 生成的内容可能有所遗漏或不够完整,需要另一次LLM调用对“已生成方案”做对照检查,如果有遗漏则迭代补充,直至完整为止。
- 子解法3:Graph-RAG 方法
之所以用Graph-RAG子解法,是因为:在一些场景下,适合先对医疗文本进行实体识别与关系提取,构建“图数据库”,再基于图数据库做更直观、更可控的查询,以降低遗漏。
该子解法又可拆分为 5 个更具体的子步骤:
(3.1) NCCN JSON 转文本片段(NCCN JSONs to Text Chunks)
从JSON中抽出可读文本分段,便于下一步分析。
(3.2) 文本片段转医学实体与关系(Text Chunks to Medical Entities and Relationships)
通过实体识别和关系抽取,得到诸如“药物—适应证”、“癌症分期—治疗策略”等结构化信息。
(3.3) 医学实体和关系转图要素(Medical Entities and Relationships to Graph Element Summaries)
将抽取到的实体与关系映射到图数据库的节点和边(Graph Node/Edge),形成半结构化、可检索的知识图谱。
(3.4) 图要素聚合到社区(Element Summaries to Graph Communities)
有时需要先对分散的关系进行“社区检测”或聚合,最终把相关性强的实体放在同一个“社区”中,便于后续获取。
(3.5) 社区信息生成最终治疗推荐(Final Treatment Recommendation Generation)
最终基于患者的检索条件,从图社区中提炼关键信息,再结合LLM辅助生成文本化的治疗方案。
┌───>【(2) Agentic-RAG 子解法】
│ │
│ ├──> (2.1) 标题/主题选择
│ ├──> (2.2) JSON检索
【数据预处理子解法(1)】───┤ ├──> (2.3) 初步生成治疗方案
│ └──> (2.4) 不足检查与迭代
│
└───>【(3) Graph-RAG 子解法】
│
├──> (3.1) JSON -> 文本片段
├──> (3.2) 文本 -> 实体与关系
├──> (3.3) 实体关系 -> 图要素
├──> (3.4) 图要素 -> 社区汇总
└──> (3.5) 生成最终治疗推荐
举个例子:若有一位乳腺癌患者,分期为I期,HER2阳性,需要辅助治疗方案。
- Agentic-RAG 的流程可能会先识别该患者“乳腺癌I期、HER2阳性”→检索到NCCN指南中相应标题(辅助治疗章节)→ 抓取JSON→ 生成治疗方案→ 做不足检查,发现缺少针对HER2阳性患者的靶向治疗说明,再次补充。
- Graph-RAG 的流程则先把所有NCCN的文本转换成实体(如“HER2阳性”“辅助治疗”)及关系,然后在知识图谱里查找与“乳腺癌I期、HER2阳性”相关的节点边,再拼接成推荐方案。
论文核心点:
├── Abstract【论文概述】
│ ├── 阐述全球癌症负担不断上升【背景问题】
│ ├── 强调NCCN指南在癌症治疗中的地位【指南重要性】
│ ├── 指出整合大量临床与研究数据的挑战【问题难点】
│ └── 提出基于NCCN的AI辅助决策工具【研究目标】
├── 1. Introduction【研究背景与意义】
│ ├── 全球癌症发病率与死亡率持续增长【宏观背景】
│ ├── 个性化治疗需求对医生提出更高数据处理要求【临床痛点】
│ ├── NCCN指南以流程图形式呈现多肿瘤诊疗路径【指南特点】
│ └── 指南更新频繁导致临床医师难以及时追踪【问题描述】
├── 1.1. Related Work【相关研究综述】
│ ├── AI与NLP在肿瘤学决策支持领域的发展【技术背景】
│ ├── 大模型(LLMs)在医学文本理解与生成中的潜力【新兴应用】
│ └── 大模型的局限:可能出现幻觉、信息更新不及时【问题与挑战】
├── 2. Methodology【研究方法】
│ ├── 2.1. Data Preprocessing【数据预处理】
│ │ └── 将NCCN指南PDF转为JSON以保留关键信息【数据结构化】
│ ├── 2.2. Agentic-RAG【基于检索增强生成的方案一】
│ │ ├── Title Selection【从NCCN标题中定位相关主题】
│ │ ├── JSON Retrieval【检索对应页面的JSON数据】
│ │ ├── Treatment Recommendation Generation【生成结构化治疗建议】
│ │ └── Insufficiency Check【检查并迭代完善推荐方案】
│ └── 2.3. Graph-RAG【图结构化的方案二】
│ ├── 从文本拆分到医疗实体与关系【实体抽取】
│ ├── 构建图并根据图社区进行信息总结【知识图谱】
│ └── 最终基于图查询产出治疗推荐【图检索生成】
├── 3. Experimental Setup【实验设置】
│ ├── 3.1. Patient Descriptions and Query Variations【患者描述与问题类型】
│ │ └── 针对16种场景、4类提问方式进行测试【多样性评估】
│ └── 3.2. Evaluation Criteria【评估指标】
│ ├── 是否遗漏正确治疗【缺失判断】
│ ├── 是否产生不必要或错误治疗【准确性判断】
│ └── 是否遵循NCCN推荐顺序【流程合规性】
├── 4. Results and Discussion【结果与讨论】
│ ├── 4.1. System Performance【系统性能比较】
│ │ ├── Agentic-RAG:100%遵循NCCN,无错误与遗漏【高准确性】
│ │ ├── Graph-RAG:95.8%遵循率,偶有遗漏【结构化优势】
│ │ └── ChatGPT-4:91.6%遵循率,缺少部分细节【通用模型表现】
│ └── 4.2. Key Findings【主要发现】
│ ├── 三种系统均无“幻觉”治疗【安全性评估】
│ ├── Agentic-RAG可提供详尽出处【可追溯性】
│ ├── Graph-RAG基于知识图谱的引用关系【可视化结构】
│ └── ChatGPT-4缺乏精确文献定位【透明度不足】
├── 5. Conclusion【结论】
│ ├── 两种RAG方法显著提升治疗建议的准确度与透明度【研究贡献】
│ ├── 强调与临床医生协作的重要性【实践价值】
│ └── 实际部署中需考虑持续更新与模型迭代【应用拓展】
└── 5.1. Clinical Impact and Future Directions【临床影响与展望】
├── 将系统融入临床工作流程以减轻医师负担【临床整合】
├── 扩展至更多癌种及多维度患者数据【推广与适应性】
└── 建立与电子病历系统(EHR)的对接及合规管理【落地实施】
核心方法速览:
+-----------------------------------------+
| 输入: |
| 1) NCCN原始PDF / JSON |
| 2) 患者描述 & 查询问题 |
+-----------------------------------------+
|
+-----------------------++-----------------------+
| [Agentic-RAG 流程 v1] || [Graph-RAG 流程 v1] |
| 使用LLM进行动态决策 || 基于图谱的静态知识推理 |
+----------▲-----------++-----------▲----------+
│ │
│ │
+----------▼-------------------+ +--------------------▼-------------------+
| [2.2.1] 标题选取 | | [2.3] Step 1: NCCN JSONs → Text |
| 使用 GPT-4 进行语义分析 | --> | 分块:将JSON转换为分块文本 |
| 找到最相关临床标题