• [论文翻译]神经网络知识编辑研究综述

    深度神经网络在学术界和工业界正变得日益普遍,在众多领域及相关任务中达到甚至超越人类表现。然而,与人类相似,即便是最大规模的人工神经网络也会犯错,且随着时间推移,曾经正确的预测可能失效。通过添加纠错样本或更新数据来扩充数据集已成为实际应用中的常见解决方案。但众所周知的灾难性遗忘现象,对精确调整神经网络参数中隐式记忆的知识提出了挑战,通常需要完整重新训练模型才能实现预期行为。这种做法成本高昂、可靠性低,且与当前大规模自监督预训练的趋势不相容,因此亟需寻找更高效的方法来使神经网络模型适应动态变化的数据。 为应对这一需求,知识编辑 (knowledge editing) 正成为一个新兴研究领域,其目标是在不影响模型已学习任务表现的前提下,实现对预训练模型的可靠、数据高效且快速的修改。本综述对这一人工智能研究新领域进行了简要梳理:首先阐述神经网络编辑问题,通过统一框架进行形式化定义,并将其与持续学习等更受争议的研究分支区分;随后系统回顾当前最相关的知识编辑方法与数据集,将现有工作归纳为四大类——正则化技术、元学习、直接模型编辑和架构策略;最后探讨该领域与其他研究的交叉点及未来潜在方向。
  • [论文翻译]大语言模型 (Large Language Model) 编辑:问题、方法与机遇

    尽管能够训练出强大的大语言模型 (LLM),但保持其相关性和纠正错误的方法仍然难以捉摸。为此,过去几年见证了编辑大语言模型技术的激增,其目标是高效地改变大语言模型在特定领域的行为,同时不影响其他输入的性能。本文深入探讨了与大语言模型编辑相关的问题、方法和机遇。具体而言,我们全面概述了模型编辑的任务定义和挑战,并对当前最先进的方法进行了深入的实证分析。我们还构建了一个新的基准数据集,以促进更稳健的评估,并指出现有技术固有的持久性问题。我们的目标是为每种编辑技术的有效性和可行性提供有价值的见解,从而帮助社区在特定任务或场景下选择最合适的方法时做出明智的决策 [20]。
  • [论文翻译]大语言模型知识编辑研究综述

    大语言模型 (LLMs) 凭借其基于海量知识和推理能力的文本理解、分析与生成能力,近期彻底改变了学术界和工业界的格局。然而,LLMs 的一个主要缺点在于其空前庞大的参数量导致预训练计算成本极高。当需要频繁向预训练模型注入新知识时,这一劣势更为突出。因此,开发高效更新预训练 LLMs 的技术势在必行。传统方法通过直接微调将新知识编码到预训练 LLMs 中,但这种简单重训练不仅计算密集,还可能破坏模型中与更新无关的宝贵预训练知识。近年来,基于知识的模型编辑 (Knowledge-based Model Editing, KME) 日益受到关注,其目标是在不影响其他无关知识的前提下,精准修改 LLMs 以融入特定知识。本综述旨在全面深入地概述 KME 领域的最新进展:首先提出涵盖各类 KME 策略的通用框架;随后根据新知识注入预训练 LLMs 的方式建立创新分类体系,系统考察现有 KME 方法并分析各类技术的核心思想、优势与局限;进而介绍代表性评估指标、数据集和应用场景;最后深入探讨 KME 的实用性与现存挑战,并指出该领域未来发展的潜在研究方向。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理