检索增强生成文献来源的聚合物知识:生物可降解聚合物专家系统的实例

完整版
聚合物文献中包含大量且不断增长的实验知识,但其中很大一部分被埋藏在非结构化文本和不一致的术语中,这使得系统检索和推理变得困难。现有的工具通常在孤立状态下提取狭窄的、特定于研究的事实,未能保留回答更广泛科学问题的跨研究背景。检索增强生成(RAG)通过结合大型语言模型(LLMs)与外部检索,为克服这一局限性提供了一种有希望的方法,但其有效性在很大程度上取决于领域知识的表示方式。在这项工作中,我们开发了两个检索管道:一种基于密集语义向量的方法(VectorRAG)和一种基于图的方法(GraphRAG)。使用超过1000篇聚羟基脂肪酸(PHA)论文,我们构建了保留上下文的段落嵌入和规范化的结构化知识图谱,该图谱支持实体消歧和多跳推理。我们通过标准的检索指标、与GPT和Gemini等通用最先进系统的比较,以及领域化学家的定性验证来评估这些管道。结果表明,GraphRAG实现了更高的精确性和可解释性,而VectorRAG提供了更广泛的召回率,突出了互补的权衡。专家验证进一步确认,定制的管道,尤其是GraphRAG,产生了有充分依据、引文可靠的响应,具有强烈的领域相关性。通过将每个陈述都基于证据,这些系统使研究人员能够导航文献,比较研究之间的发现,并揭示难以手动提取的模式。更广泛地说,这项工作建立了一个使用精选语料库和检索设计的构建材料科学助手的实用框架,减少了对外部模型的依赖,同时实现了大规模的可靠文献分析。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行