• [论文翻译]KnowCoder: 将结构化知识编码到大语言模型以实现通用信息抽取

    本文提出KnowCoder——一个通过代码生成实现通用信息抽取(Universal Information Extraction, UIE)的大语言模型。KnowCoder致力于开发一种LLM易于理解的统一模式表示方法,以及能促使LLM遵循模式并准确抽取结构化知识的有效学习框架。为此,KnowCoder引入代码化模式表示方法,将不同模式统一转换为Python类,从而以LLM友好的方式捕捉UIE中任务间约束等复杂模式信息。我们进一步构建了覆盖3万多种知识的代码化模式库,据我们所知这是UIE领域规模最大的模式库。为简化LLM学习过程,KnowCoder采用两阶段学习框架:通过代码预训练增强模式理解能力,通过指令微调提升模式遵循能力。在约15亿条自动构建数据上进行代码预训练后,KnowCoder已展现出卓越的泛化能力,在少样本设置下相比LLaMA2取得49.8% F1值的相对提升。经过指令微调后,KnowCoder在未见模式上表现出强大泛化能力,在零样本和低资源设置下分别较SOTA基线提升12.5%和21.9%。此外,基于我们的统一模式表示方法,可同时利用多个人工标注数据集优化KnowCoder,使其在有监督设置下最高获得7.5%的性能提升。
  • [论文翻译]ARTEMIS-DA:面向数据分析多步洞察合成的高级推理与转换引擎

    本文提出了一种用于多步骤数据分析洞察合成的高级推理与转换引擎(ARTEMIS-DA),这是一种旨在增强大语言模型(LLM)解决复杂多步骤数据分析任务能力的新型框架。ARTEMIS-DA整合了三个核心组件:规划器(Planner)将复杂用户查询分解为包含数据预处理、转换、预测建模和可视化的结构化顺序指令;编码器(Coder)动态生成并执行Python语言代码来实现这些指令;图表解析器(Grapher)通过解读生成的可视化结果来获取可操作的见解。通过协调这些组件之间的协作,ARTEMIS-DA能有效管理涉及高级推理、多步骤转换以及跨多种数据模态合成的复杂分析工作流。该框架在WikiTable Questions和TabFact等基准测试中达到了最先进(SOTA)性能,展示了其精确且自适应地处理复杂分析任务的能力。通过将大语言模型的推理能力与自动化代码生成执行及视觉分析相结合,ARTEMIS-DA为多步骤洞察合成提供了一个强大、可扩展的解决方案,解决了数据分析领域的诸多挑战。
  • [论文翻译]语法错误纠正的支柱:大语言模型时代下当代方法的全面审视

    语法错误修正 (GEC) 的任务是纠正人类文本中的拼写和语法错误。GEC 方法和模型架构多种多样。近年来,大多数系统都采用了基于 Transformer 的架构 (Bryant et al., 2023)。当前趋势涉及为 GPT-4 (OpenAI, 2023) 等大语言模型编写提示,以生成语法修正 (Loem et al., 2023)、(Coyne et al., 2023)、(Wu et al., 2023)、(Fang et al., 2023)。
  • [论文翻译]基于逻辑编程与大语言模型的知识图谱领域问答

    针对特定领域图谱的问答需要定制化方法,因其关系数量有限且领域特性鲜明。我们将经典逻辑编程语言 (Prolog) 与大语言模型 (LLM) 相结合,利用逻辑推理能力解决知识图谱问答 (KGQA) 任务。通过将问题转换为可读性强且接近自然语言表达的 Prolog 查询,我们实现了程序化推导答案的生成。为验证方法有效性,我们在 MetaQA 基准数据集上进行评估。实验结果表明,即使仅使用少量标注数据训练,我们的方法也能准确识别所有测试问题的正确答案实体。总体而言,这项工作通过融合逻辑编程语言,为特定领域图谱问答提供了兼具可解释性和鲁棒性的解决方案。
  • [论文翻译]XIYAN-SQL 预览:一个用于文本到 SQL 的多生成器集成框架

    为解决大语言模型在自然语言转SQL任务中的性能挑战,我们提出了XiYan-SQL创新框架,该框架采用多生成器集成策略来改进候选生成。我们设计了M-Schema这种半结构化模式表示方法,旨在增强对数据库结构的理解。为提升生成候选SQL查询的质量和多样性,XiYan-SQL将上下文学习(ICL)的重要潜力与监督微调的精确控制相结合。一方面,我们提出一系列训练策略来微调模型,使其生成具有不同偏好的高质量候选查询;另一方面,我们采用基于命名实体识别的示例选择方法实现ICL,避免对实体的过度关注。优化器通过修正逻辑或语法错误来改进每个候选查询。针对最佳候选查询的识别难题,我们微调了选择模型以区分候选SQL查询的细微差异。在多方言数据集上的实验结果证明了XiYan-SQL在不同场景中应对挑战的鲁棒性。总体而言,我们提出的XiYan-SQL在Bird基准测试中达到75.63%的最优执行准确率,在Spider测试集上达89.65%,在SQL-Eval上为69.86%,在NL2GQL上达41.20%。该框架不仅提升了SQL查询的质量和多样性,其性能也超越了先前的方法。
  • [论文翻译]Citrus: 在医疗语言模型中利用专家认知路径实现高级医疗决策支持

    近年来,具备推理能力的大语言模型(LLM)快速发展,在广泛的应用场景中展现出巨大潜力。然而在医疗领域,尤其是疾病推理任务中,专业级认知数据的获取难题阻碍了其实际部署。本文提出医疗语言模型Citrus,通过模拟医学专家的认知过程,弥合临床专业知识与AI推理之间的鸿沟。该模型基于大规模模拟专家疾病推理数据进行训练,这些数据采用能精准捕捉临床医生决策路径的创新方法合成。该方法使Citrus能更好地模拟诊疗过程中涉及的复杂推理流程。
  • [论文翻译]知识图谱与预训练语言模型增强的对话推荐系统表征学习

    摘要—对话推荐系统(CRS)利用自然语言交互和对话历史推断用户偏好并提供精准推荐。由于对话上下文和背景知识有限,现有CRS依赖知识图谱等外部资源来丰富上下文,并基于实体间关系建模。然而这些方法忽略了实体内部丰富的固有信息。为此,我们提出知识增强的实体表示学习(KERL)框架,通过结合知识图谱和预训练语言模型来提升CRS对实体的语义理解。在KERL框架中,实体文本描述通过预训练语言模型编码,知识图谱则用于强化实体表示。我们还采用位置编码来有效捕捉对话中实体的时序信息。增强后的实体表示被用于开发两个组件:融合实体与上下文表示以生成更明智推荐的推荐组件,以及在回复文本中生成信息性实体相关内容的对话组件。
  • [论文翻译]基于大语言模型的多任务学习在隐式情感分析中的应用:数据级与任务级自动权重学习

    摘要—隐式情感分析(ISA)由于缺乏显著线索词而面临重大挑战。先前方法因数据不足和推理能力有限而难以推断潜在观点。将多任务学习(MTL)与大语言模型(LLM)相结合,有望使不同规模的模型可靠地感知和识别ISA中的真实观点。然而现有MTL方法受限于两类不确定性:数据级不确定性(源于LLM生成上下文信息时的幻觉问题)和任务级不确定性(源于模型处理上下文信息的能力差异)。为处理这些不确定性,我们提出MT-ISA——一种通过自动MTL利用LLM生成与推理能力来增强ISA的新型MTL框架。具体而言,MT-ISA利用生成式LLM构建辅助任务以补充情感要素,并采用自动MTL充分挖掘辅助数据。我们提出数据级与任务级自动权重学习(AWL),动态识别关系并优先处理更可靠的数据和关键任务,使不同规模模型能基于其推理能力自适应学习细粒度权重。我们研究了三种数据级AWL策略,同时为任务级AWL引入同方差不确定性。大量实验表明,不同规模模型在MT-ISA中实现了主要预测与辅助任务的最佳平衡,验证了我们方法的有效性与适应性。
  • [论文翻译]基于图的路径:知识图谱赋能大语言模型推理

    大语言模型 (LLMs) 在各类任务中取得了令人瞩目的成果,但在深度复杂推理和知识密集型任务中仍面临幻觉问题与相关知识缺失的挑战。知识图谱 (KGs) 以结构化形式捕获海量事实,为推理提供了可靠的知识来源。然而,现有基于知识图谱的大语言模型推理方法在处理多跳推理、多实体问题及有效利用图结构方面存在不足。针对这些问题,我们提出了 Paths-over-Graph (PoG),该方法通过整合知识图谱中的推理路径来增强大语言模型推理能力,提升输出的可解释性与可信度。PoG 采用三阶段动态多跳路径探索机制,将大语言模型的固有知识与知识图谱的事实知识相结合,从而解决多跳和多实体问题。为提高效率,PoG 首先从图探索中剪枝无关信息,并引入融合图结构、大语言模型提示和预训练语言模型 (如 SBERT) 的高效三阶段剪枝技术,显著缩小候选路径的探索范围。这确保了所有推理路径均包含从知识图谱中提取的高相关性信息,使推理过程在问题求解中兼具可信性与可解释性。PoG 创新性地利用图结构剪枝无关噪声,成为首个在知识图谱上实现多实体深度路径检测以支持大语言模型推理的方法。
  • [论文翻译]人类生成数据会耗尽吗?基于人类数据的大语言模型扩展极限

    我们研究了公开人类生成文本数据的可用性对大语言模型(LLM)扩展的潜在限制。根据当前趋势预测了训练数据需求的增长,并估算了公开人类文本数据的总存量。研究发现:若当前大语言模型的发展趋势持续,模型训练所用数据集规模将在2026至2032年间达到公开人类文本数据存量的水平(若存在过训练情况可能稍早)。探讨了当人类生成文本数据集无法继续扩展时语言建模的持续发展路径,认为合成数据生成、数据丰富领域的迁移学习以及数据效率提升可能支持后续进展。
  • [论文翻译]HuggingGPT: 用ChatGPT和Hugging Face上的模型解决AI任务

    解决跨领域和多模态的复杂AI任务是实现通用人工智能的关键一步。虽然已有众多针对不同领域和模态的AI模型,但它们无法自主处理复杂AI任务。鉴于大语言模型(LLM)在语言理解、生成、交互和推理方面展现出卓越能力,我们提出可以让大语言模型作为控制器来管理现有AI模型,并以语言作为通用接口来实现这一目标。基于这一理念,我们推出了HuggingGPT——一个由大语言模型(如ChatGPT)驱动的AI智能体,通过连接机器学习社区(如Hugging Face)中的各类AI模型来解决AI任务。具体而言,当收到用户请求时,我们使用ChatGPT进行任务规划,根据Hugging Face上提供的功能描述选择相应模型,用选定模型执行每个子任务,并根据执行结果汇总响应。通过结合ChatGPT强大的语言能力和Hugging Face丰富的AI模型库,HuggingGPT能够处理涵盖不同模态和领域的复杂AI任务,在语言、视觉、语音等挑战性任务中取得显著成果,这为实现通用人工智能开辟了新途径。
  • [论文翻译]在Transformer中批量编辑记忆

    近期研究在更新大语言模型记忆方面展现出令人振奋的潜力,旨在替换过时信息或添加专业知识。然而这类工作目前主要局限于更新单一关联。我们开发了MEMIT方法,可直接为语言模型批量更新记忆,实验证明该方法能在GPT-J (6B)和GPT-NeoX (20B)模型上实现数千条关联的更新,规模超越前人工作数个量级。代码与数据详见memit.baulab.info。
  • [论文翻译]大语言模型在医学中的应用:潜力与挑战

    大语言模型 (LLM) 已应用于医疗健康领域的多项任务,从医学考试题目到回答患者问题。随着开发大语言模型的企业与医疗系统之间的机构合作日益增多,现实世界的临床应用正逐渐成为现实。随着这些模型受到关注,医疗从业者必须了解大语言模型是什么、其发展历程、当前及潜在应用,以及在医学领域中使用的相关风险。本综述及配套教程旨在概述这些主题,帮助医疗从业者理解大语言模型在医学领域中快速发展的现状。
  • [论文翻译]大语言模型在医疗领域的应用综述:从数据、技术、应用走向责任与伦理

    大语言模型(LLM)在医疗健康领域的应用既令人振奋又引发担忧,因其能够基于专业知识有效响应自由文本查询。本综述系统梳理了当前医疗健康大语言模型的能力边界,并阐明其发展历程,从而呈现从传统预训练语言模型(PLM)到大语言模型的演进路线。具体而言,我们首先探讨了大语言模型在提升各类医疗健康应用效率与效果方面的潜力,同时剖析其优势与局限;其次,通过对比传统PLM与前沿LLM的技术差异,归纳了相关医疗健康训练数据、学习方法及使用范式;最后,深入分析了部署大语言模型时面临的独特挑战,特别是公平性、问责制、透明度与伦理问题。此外,我们还整理了开源资源合集以支持研究者。总体而言,我们认为当前正经历从PLM到LLM的重大范式转变:一方面是从判别式AI向生成式AI(Generative AI)的跨越,另一方面是从模型中心方法论向数据中心方法论的演进。研究发现,医疗健康领域应用大语言模型的最大障碍在于公平性、问责制、透明度与伦理问题。
  • [论文翻译]医学领域大语言模型综述:进展、应用与挑战

    大语言模型 (LLM/Large Language Model) ,如 ChatGPT,因其理解和生成人类语言的能力而受到广泛关注。尽管当前研究趋势聚焦于利用大语言模型支持各类医疗任务 (例如提升临床诊断和提供医学教育) ,但针对这些工作的系统性综述,尤其是其在医学领域的发展、实际应用及成果的全面分析仍较为匮乏。因此,本文旨在详细概述大语言模型在医学中的开发与部署,包括其面临的挑战与机遇。在开发层面,我们详细介绍了现有医疗大语言模型的原理,包括其基础模型结构、参数量级以及模型开发所用的数据来源与规模,为开发者构建符合特定需求的医疗大语言模型提供指南。在部署层面,我们对比了不同大语言模型在各类医疗任务中的表现,并进一步将其与最先进的轻量级模型进行对比,以明晰大语言模型在医学领域的独特优势与局限。总体而言,本文围绕以下研究问题展开:1) 医疗大语言模型的开发实践有哪些?2) 如何衡量大语言模型在医疗场景中的任务表现?3) 医疗大语言模型如何应用于真实世界实践?4) 使用医疗大语言模型会引发哪些挑战?5) 如何更有效地开发与部署医疗大语言模型?通过回答这些问题,本文旨在揭示大语言模型在医学领域的机遇与挑战,并为构建高效医疗大语言模型提供实用参考。我们还在以下地址持续更新医疗大语言模型的实践指南列表: https://github.com/AI-in-Health/Me dLL Ms Practical Guide.
  • [论文翻译]大语言模型中的推理能力研究综述

    推理是人类智能的基本方面,在问题解决、决策制定和批判性思维等活动中起着关键作用。近年来,大语言模型(LLM)在自然语言处理领域取得了显著进展,有观察表明当这些模型规模足够大时可能展现出推理能力。然而,目前尚不清楚LLM具备何种程度的推理能力。本文全面概述了LLM推理研究的现状,包括改进和激发模型推理的技术、评估推理能力的方法与基准、该领域先前研究的发现与启示,以及对未来方向的建议。我们的目标是提供这一主题的详细最新综述,并促进有意义的讨论和未来工作。[1]
  • [论文翻译]实践中的大语言模型(Large Language Model)力量:关于ChatGPT及其他模型的综述

    本文为从业者和终端用户在大语言模型(LLM)下游自然语言处理(NLP)任务中的应用提供了全面实用的指南。我们从模型、数据和下游任务三个维度,深入探讨了大语言模型的使用策略与洞见。首先,我们对当前GPT和BERT架构的大语言模型进行了介绍与简要总结。随后,我们分析了预训练数据、训练数据和测试数据的影响机制。最重要的是,我们针对各类自然语言处理任务(如知识密集型任务、传统自然语言理解任务、自然语言生成任务、涌现能力等)详细论证了大语言模型的适用场景与局限边界,通过具体案例展示其实际应用效果与约束条件。我们还着力解析了数据要素的重要性,以及不同NLP任务面临的特殊挑战。此外,我们探究了虚假偏差对大语言模型的影响,并深入讨论了效率、成本和延迟等关键部署因素。本指南旨在为研究者和实践者提供有价值的洞见与最佳实践,促进大语言模型在各类NLP任务中的成功落地。最新整理的实用资源清单持续更新于:https://github.com/Mooler0410/LLMsPracticalGuide。
  • [论文翻译]多模态大语言模型综述

    近期,以 GPT-4V 为代表的多模态大语言模型 (Multimodal Large Language Model, MLLM) 成为新兴研究热点,其利用强大的大语言模型作为核心处理多模态任务。MLLM 展现的传统多模态方法罕见的涌现能力(例如基于图像创作故事、无需 OCR 的数学推理),暗示了通往通用人工智能的潜在路径。为此,学术界与产业界竞相开发媲美甚至超越 GPT-4V 的 MLLM,以惊人速度推进研究边界。本文系统梳理并总结了 MLLM 的最新进展:首先阐述其基本框架,解析架构、训练策略与数据、评估等核心概念;随后探讨如何扩展 MLLM 以支持更细粒度模态、更多语言和场景的研究主题;继而分析多模态幻觉问题及多模态上下文学习 (M-ICL)、多模态思维链 (M-CoT)、大语言模型辅助视觉推理 (LAVR) 等延伸技术;最后讨论现存挑战并指出未来研究方向。鉴于 MLLM 时代刚刚开启,我们将持续更新本综述,希望激发更多研究。相关 GitHub 链接持续收录最新论文:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models。
  • [论文翻译]大语言模型与人类对齐:综述

    大语言模型 (LLMs) 经过海量文本训练后,已成为解决各类自然语言处理 (NLP) 任务的主流方案。尽管表现卓越,这些模型仍存在误解人类指令、生成潜在偏见内容或事实错误 (幻觉) 信息等局限性。因此,如何让大语言模型符合人类期望已成为学界研究热点。本综述系统梳理了这些对齐技术,涵盖以下维度:(1) 数据收集:高效获取高质量指令的方法,包括利用 NLP 基准数据集、人工标注以及调用强大 LLMs;(2) 训练方法:详细分析主流对齐训练方案,涵盖监督微调、在线/离线人类偏好训练以及参数高效训练机制;(3) 模型评估:多维度评估对齐效果的方法体系。最后我们提炼核心发现,并指明该领域未来研究方向。本综述为致力于优化大语言模型人类对齐的研究者提供了系统参考。相关 GitHub 资源库持续更新最新论文:https://github.com/GaryYufei/AlignLLMHumanSurvey。
  • [论文翻译]大语言模型评估综述

    大语言模型 (LLM) 凭借其在各类应用中的卓越表现,正日益受到学术界和工业界的广泛关注。随着大语言模型在研究和日常使用中扮演越来越重要的角色,对其评估也显得愈发关键——这不仅涉及任务层面的分析,更需从社会层面理解其潜在风险。过去几年中,研究者们从多角度对大语言模型进行了深入考察。本文系统梳理了这些评估方法,围绕三个核心维度展开:评估内容、评估场景与评估方法。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理