• [论文翻译]大规模快速模型编辑

    虽然大型预训练模型在各种下游任务上取得了令人瞩目的成果,但现有最大规模的模型仍会出现错误,甚至准确的预测结果也可能随时间推移而过时。由于在训练阶段不可能检测到所有此类故障,因此需要让开发者和终端用户能够在不改动模型其他部分的情况下修正错误输出。然而,大型神经网络学习到的分布式黑盒表征特性,使得实现这种针对性编辑变得困难。如果仅提供单个问题输入和期望输出,微调方法容易过拟合;其他编辑算法要么计算量过大,要么在应用于超大规模模型时完全失效。为实现高效的大规模事后编辑,我们提出了基于梯度分解的模型编辑网络(MEND),这是一组小型辅助编辑网络,通过单个期望输入输出对就能快速局部修改预训练模型的行为。MEND通过学习转换标准微调获得的梯度,利用梯度的低秩分解使这种转换的参数化处理成为可能。即便针对百亿级参数模型,MEND也能在单块GPU上一天内完成训练;训练完成后可快速对预训练模型实施新编辑。我们在T5、GPT、BERT和BART模型上的实验表明,MEND是唯一能有效编辑百亿参数以上模型行为的编辑方法。代码与数据详见https://sites.google.com/view/mend-editing。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理