[博客翻译]Transformer²:自适应性大语言模型


原文地址:https://sakana.ai/transformer-squared/


octopus.jpeg

概述

适应性是自然界中最引人注目的现象之一。从章鱼通过改变皮肤颜色来融入环境,到人类大脑在受伤后重新连接,使个体能够恢复失去的功能并适应新的思维方式或运动方式。生物体展现出的适应性使得生命能够在多样且不断变化的环境中蓬勃发展。

在人工智能领域,适应性的概念同样具有吸引力。想象一下,一个机器学习系统能够动态调整自身的权重,以在不熟悉的环境中茁壮成长,这本质上展示了一个随着学习而进化的系统。自适应性的人工智能承诺更高的效率,并有可能实现与动态现实世界始终保持一致的终身模型。

这种自适应性人工智能的愿景是我们最新研究论文 Transformer²(“Transformer平方”)的核心,我们提出了一种能够为各种任务动态调整权重的机器学习系统。名称Transformer²反映了它的两步过程:首先,模型分析传入的任务以理解其需求,然后应用特定任务的调整以生成最佳结果。通过有选择地调整模型权重的关键组件,我们的框架使大语言模型(LLMs)能够实时动态适应新任务。Transformer²在各种任务(如数学、编码、推理和视觉理解)中展示了显著的进步,在效率和任务特定性能方面优于传统的静态方法(如LoRA),同时所需的参数数量大大减少。

我们的研究为未来提供了一个窥视,未来的AI模型将不再是静态的。这些系统将在测试时动态扩展其计算能力,以适应所遇到任务的复杂性,体现能够持续变化和终身学习的活体智能。我们相信自适应性不仅将改变AI研究,还将重新定义我们与智能系统的互动方式,创造一个适应性和智能并行的世界。

cover_v3_1.cropped.gif

Transformer²是一种能够为各种任务动态调整权重的机器学习系统。适应性是一种显著的自然现象,就像章鱼如何改变颜色以融入环境,或者大脑在受伤后如何重新连接。我们相信,我们的新系统为新一代自适应AI模型铺平了道路,这些模型能够修改自身的权重和架构,以适应所遇到任务的性质,体现能够持续变化和终身学习的活体智能。

剖析大语言模型的“大脑”

就像人类大脑通过相互连接的神经通路存储知识和处理信息一样,大语言模型(LLMs)在其权重矩阵中存储知识。这些矩阵是LLM的“大脑”,包含了它从训练数据中学到的精髓。

理解这个“大脑”并确保它能够有效适应新任务,需要更深入地研究其内部结构。这就是奇异值分解(SVD)提供宝贵见解的地方。将SVD想象为一位外科医生,对LLM的大脑进行详细的手术。这位外科医生将LLM中存储的庞大而复杂的知识分解为更小、有意义且独立的部分(例如,数学、语言理解等不同路径或组件)。

SVD通过识别LLM权重矩阵的主成分来实现这一目的。在我们的研究中,我们发现增强这些成分中的一部分信号,同时抑制其他部分,可以提高LLM在下游任务中的表现。基于这一基础,Transformer²迈出了动态、任务特定适应的下一步,使LLM能够在多样且复杂的场景中表现出色。

介绍Transformer²

Transformer²是一种开创性的方法,通过两步过程重新定义了这些强大模型处理多样化任务的方式。其核心是能够动态调整其权重矩阵的关键组件。在训练时,我们引入了奇异值微调(SVF),这是一种使用强化学习(RL)来增强/抑制不同“大脑”组件信号的方法,适用于各种类型的下游任务。在推理时,我们采用三种不同的策略来检测任务的身份,并相应地调整模型的权重。下图概述了我们的方法。

introducing.png

我们的方法示意图。 左:我们使用SVD将LLM的“大脑”(即权重矩阵)分解为几个独立的组件。右:我们使用RL来训练这些组件的组合,以应对各种任务。组件可以在不同任务之间共享。例如,在上图中,紫色齿轮由语言理解和推理共享。在推理时,我们识别任务类型,然后动态调整组件的组合。

使用SVF和RL进行训练

在训练时,SVF学习一组z-向量,每个下游任务一个。每个z-向量可以被视为某个任务的专家,它是一个紧凑的表示,指定了权重矩阵中每个组件的期望强度,充当一组“放大器”或“阻尼器”,以调节不同组件对模型行为的影响。

例如,假设SVD将一个权重矩阵分解为五个组件[A, B, C, D, E]。对于数学任务,学习到的z-向量可能是[1, 0.8, 0, 0.3, 0.5],这意味着组件A对数学至关重要,而组件C对其表现几乎没有影响。对于语言理解任务,z-向量可能是[0.1, 0.3, 1, 0.7, 0.5],这表明尽管组件C对数学任务不太有用,但它对语言理解任务至关重要。

SVF使用RL在一组预定义的下游任务上学习这些z-向量。学习到的z-向量使Transformer²能够适应各种新的下游任务,同时仅引入最少数量的额外参数(即z-向量)。

自适应性

在推理时,我们为我们的框架设计了一种两阶段适应策略,有效地结合了任务特定的z-向量集合。在第一次推理过程中,给定一个任务或单个输入提示,Transformer²使用以下三种适应方法之一分析其测试时条件。在第二次推理过程中,Transformer²通过结合z-向量相应地调整权重,生成最符合其新设置的最终响应。

我们总结了以下三种任务检测/适应方法:

  1. 基于提示的适应。 一个专门设计的适应提示对任务进行分类(例如,数学、编码)并选择一个预训练的z-向量。
  2. 基于分类器的适应。 一个使用SVF训练的任务分类器在推理过程中识别任务并选择适当的z-向量。
  3. 少样本适应。 通过加权插值结合多个预训练的z-向量。一个简单的优化算法基于少样本评估集的表现调整这些权重。

这三种方法共同确保Transformer²实现稳健且高效的任务适应,为在各种场景中取得卓越表现铺平了道路。详情请参阅我们的[论文](https://sakana.