[论文翻译]突破Transformer模型限制:任务特定上下文归因承诺无需微调预训练大语言模型即可提升泛化能力
在自然语言处理(NLP)分类任务中,对预训练大语言模型(LLM)进行特定数据集的微调是常用策略。然而,这种方法通常会导致模型泛化能力下降。本文提出一个既能保持泛化能力,又能通过任务特定上下文归因提升下游任务性能的框架。我们证明:使用任务特定概念算子对Transformer模型的文本表示进行线性变换,可将其投影到潜在概念空间(本文称为上下文归因)。该特定概念算子通过新型损失函数在监督学习阶段进行优化。实验表明,针对每个任务目标的文本表示上下文归因能提升判别函数能力,从而改善分类任务性能。在HateXplain、IMDB影评和社交媒体归因三个数据集上的实验结果显示,所提模型获得了更优的准确率和泛化能力。具体而言: