• [论文翻译]神经网络知识编辑研究综述

    深度神经网络在学术界和工业界正变得日益普遍,在众多领域及相关任务中达到甚至超越人类表现。然而,与人类相似,即便是最大规模的人工神经网络也会犯错,且随着时间推移,曾经正确的预测可能失效。通过添加纠错样本或更新数据来扩充数据集已成为实际应用中的常见解决方案。但众所周知的灾难性遗忘现象,对精确调整神经网络参数中隐式记忆的知识提出了挑战,通常需要完整重新训练模型才能实现预期行为。这种做法成本高昂、可靠性低,且与当前大规模自监督预训练的趋势不相容,因此亟需寻找更高效的方法来使神经网络模型适应动态变化的数据。 为应对这一需求,知识编辑 (knowledge editing) 正成为一个新兴研究领域,其目标是在不影响模型已学习任务表现的前提下,实现对预训练模型的可靠、数据高效且快速的修改。本综述对这一人工智能研究新领域进行了简要梳理:首先阐述神经网络编辑问题,通过统一框架进行形式化定义,并将其与持续学习等更受争议的研究分支区分;随后系统回顾当前最相关的知识编辑方法与数据集,将现有工作归纳为四大类——正则化技术、元学习、直接模型编辑和架构策略;最后探讨该领域与其他研究的交叉点及未来潜在方向。
  • [论文翻译]大语言模型知识编辑的综合研究

    大语言模型(LLM)在理解和生成接近人类交流的文本方面展现出非凡能力。然而其主要局限在于训练过程中因海量参数化带来的巨大计算需求。这一挑战因世界的动态特性而加剧,需要频繁更新大语言模型以修正过时信息或整合新知识,从而保持其持续相关性。值得注意的是,许多应用场景要求模型在训练后进行持续调整以解决缺陷或不良行为。业界对高效、轻量级的实时模型修改方法兴趣日增。近年来大语言模型的知识编辑技术蓬勃发展,该技术旨在高效修改特定领域内模型行为的同时,保持其在各类输入中的整体性能。本文首先定义知识编辑问题,随后系统梳理前沿方法。受教育和认知研究理论[1-3]启发,我们提出统一分类标准,将知识编辑方法归为三类:借助外部知识、知识融合入模、编辑内在知识。此外,我们构建了新基准KnowEdit,用于对代表性知识编辑方法进行全面实证评估。通过深入分析知识定位,可以更深刻理解大语言模型固有的知识结构。知识编辑研究最初作为高效引导大语言模型的手段,我们期望其研究成果能揭示模型底层的知识机制。为促进未来研究,我们开源了框架EasyEdit1,使实践者能高效灵活地实现大语言模型知识编辑。最后,我们探讨了知识编辑的若干潜在应用,阐明其广泛而深远的影响。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理