从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读

0 / 1901

前言

本文先全面介绍 Mistral 7B,特别是 Mixtral 8x7B

毕竟 OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。早些时候,有人爆料 GPT-4 是采用了由 8 个专家模型组成的集成系统。后来又有传闻称,ChatGPT 也只是百亿参数级的模型(大概在 200 亿左右)

传闻无从证明,但 Mixtral 8x7B 可能提供了一种「非常接近 GPT-4」的开源选项,特此,本文全面解析下:从原理解析到代码解读(在此文之前,尚没有资料扒得像本文这样如此之细)

第一部分 23 年 5 月 Mistral AI 发布的 Mistral 7B

1.1 Mistral 7B:通过分组查询注意力 + 滑动窗口注意力超越 13B 模型

23 年 5 月,DeepMind 和 Meta 的三位前员工在巴黎共同创立了 Mistral AI(其 CEO Arthur Mensch 此前在 DeepMind 巴黎工作,CTO Timothée Lacroix 和首席科学家 Guillaume Lample 则在 Meta 共同参与过 LLaMA 一代的研发,很像当年 OpenAI 的部分员工出走成立 Anthropic 啊)

23 年 10 月,他们发布了第一个基座大模型,即 Mistral 7B

Mistral 7B 对应的论文为《Mistral 7B》称( 另,这是其 GitHub 地址) ,以下是「模型参数图」

  1. Mistral 7B 在所有评估基准中均胜过了目前最好的 13B 参数模型(Llama 2,对标的第二代),并在推理、数学和代码生成方面超越了 Llama 34B(对,这里其对标 Llama 第一代的 34B)
    Mistral 7B outperforms the previous best 13B model (Llama 2, [Llama 2 : Open foundation and fine-tuned chat models ]) across all testedbenchmarks, and surpasses the best 34B model (LLaMa 34B, [Llama : Open and efficient foundation language models ]) in mathematics and codegeneration.

  2. 该模型采用了分组查询注意力(GQA),GQA 显著加快了推理速度,还减少了解码期间的内存需求,允许更高的批处理大小,从而提高吞吐量
    GQA significantly accelerates the inference speed, and also reduces the memory requirement during decoding, allowing for higher batch sizes hence higher throughput
    所以你看上面的「模型参数图」,维度(dim):4096,总计 32 个头(n_heads),每个头的维度(head_dim):128,这一眼可以看出来,而 n_kv_heads 是啥呢?
    咋一看好像不太好理解 是不?其实,正是因为 Mistral 用了 GQA,n_heads 指的是 Q 的头数,n_kv_heads 指的是 K、V 的头数

    不过要注意的是,与上图中间所示部分不太一样的地方在于:
    \rightarrow 上图中间所示部分中,Q 的头数是 K V 头数的 2 倍
    \rightarrow 但在 Mistral 的 GQA 中,Q 的头数是 K V 头数的 4 倍

    关于 GQA 的更多介绍,请参见《一文通透各种注意力:从多头注意力 MHA 到分组查询注意力 GQA、多查询注意力 MQA

  3. 同时结合滑动窗口注意力(sliding window attention,简称 SWA)以有效处理任意长度的序列
    SWA is designed to handle longer sequences more effectively at a reduced computational cost

    包括你再看上上张图所示的「模型参数图」,可知 context_len 8192 是说它训练的时候,传进来的数据最大只能到 8192 个 tokens,也就是训练时的上下文长度上限,
    windows_size 4096 是 sliding windows attention 的滑窗大小,1 次 attention 计算的上下文范围只 4096 个 tokens

    言外之意是,每个 token 只最多计算 4096 的范围
    第 5000 个 token 只计算[905: 5000]这个范围的 attention
    第 5001 个 token 只计算[906: 5001]这个范围的 attention
    以此类推..

此外,作者提供了一个针对遵循指令进行了微调的模型,名为 Mistral 7B-Instruct,它在人工和自动化基准测试中均超过了 LLaMA2 13B-chat 模型

1.2 三个显著特点:滑动窗口注意力、滚动缓冲区缓存、预填充与分块

1.2.1 滑动窗口注意力:扩展上下文长度

vanilla attention 的操作次数在序列长度上是二次型的,记忆量随着 token 数量线性增加。在推理时,由于缓存可用性的降低,这导致了更高的延迟和更小的吞吐量(The number of operations in vanilla attention is quadratic in the sequence length, and the memory increases linearly with the number of tokens. At inference time, this incurs higherlatency and smaller throughput due to reduced cache availability )

为了缓解这个问题,Mistral 7B 使用滑动窗口注意力(sliding window attention)

  1. 每个 token 最多可以关注来自上一层的 W 个 token(上图中,W = 3)。请注意,滑动窗口之外的 token 仍然影响下一个单词预测
    each token can attend to at most W tokens from the previous layer (here, W = 3). Note that tokensoutside the sliding window still influence next word prediction.

    举个例子,在面对这个序列时:The cat sat on the
    如果是标准注意力,在计算最后一个 token “the”时,得计算 the 本身所对应的 query 与整个上文每个 token 对应的 key 的内积,当序列长度一长时,该计算量还是比较大的
    但如果是滑动窗口注意力,则在计算最后一个 token “the”时,只需计算 the 本身所对应的 query 与上文中 3 个 token 对应的 key 的内积(这里说的上文中的 3 个 token 包括 the 自己在内 )

  2. 在每个注意力层,信息可以向前移动 W 个 token。因此,在 k 层注意力之后,信息最多可以向前移动 k 个 ×W 个 token
    At each attention layer, information can moveforward by W tokens. Hence, after k attention layers, information can move forward by up to k ×W tokens.

1.2.2 滚动缓冲区缓存(Rolling Buffer Cache)

固定的注意力长度意味着可以使用滚动缓存来限制的缓存大小(A fixed attention span means that we can limit our cache size using a rollingbuffer cache)

  1. 缓存的大小是固定的 W,时间步长 i 的键和值存储在缓存的位置 i mod W 中。因此,当位置 i 大于 W 时,缓存中过去的值就会被覆盖,缓存的大小就会停止增加
    The cache has a fixed size of W, and the keys and values for the timestep i are storedin position i mod W of the cache. As a result, when the position i is larger than W, past valuesin the cache are overwritten, and the size of the cache stops increasing

    以“The cat sat on the mat”为例..
    当 i = 0 时,指 The,0 mod  3=0
    当 i = 1 时,指 cat,1 mod  3=1
    当 i = 2 时,指 sat,2 mod  3=2
    当 i = 3 时,指 on,3 mod  3=0
    当 i = 4 时,指 the,4 mod  3=1
    当 i = 5 时,指 mat,5 mod 3 = 2

  2. 在 32k token 的序列长度上,这减少了 8 倍的缓存内存使用,而不影响模型质量
    On a sequence length of 32k tokens, this reduces the cache memory usageby 8x, without impacting the model quality.

如果把缓冲区比作一座仓库,每存进一个新东西,都会占据相应的位置,而仓库的总容量是固定的,当仓库被装满时,就会把最早放入的东西移除,让新的物品继续进仓,相当于入仓时间更接近当前时间的物品则会留在仓库中,如此,即能在节约资源的同时保留一定长度的序列

1.2.3 预填充与分块:减少重复运算

在生成序列时,需要一个一个地预测 token,因为每个 token 都以前面的 token 为条件。然而,prompt 是提前知道的,可以用 prompt 预填充(k, v)缓存,即

  1. 如果 prompt 非常大,可以把它分成更小的块,用每个块预填充缓存。为此,可以选择窗口大小作为分块大小。因此,对于每个块,需要计算缓存和块上的注意力

  2. 下图展示了注意力掩码在缓存和分块上的工作原理

    在预填充缓存时,长序列被分块,以限制内存使用
    我们把一个序列分成三个块来处理,“The cat sat on”,“the mat and saw”,“the dog go to”。上图中显示了第三块(“the dog go to”)发生的情况:它使用因果掩码(最右块)来关注自己,使用滑动窗口(中心块)来关注缓存,并且不关注过去的 token,因为它们在滑动窗口之外(左块)

1.3 Mistral 7B – Instruct

与 Mistral 7B 同期发布的 Mistral 7B – Instruct(We also provide a model fine-tuned to follow instructions,Mistral 7B –Instruct),在 MT-Bench 的表现可以略微超过 13B –Chat 模型

// 待更

第二部分 首个开源 MoE 大模型 Mixtral 8x7B

2.1 Mixtral 8x7B 的整体架构与模型细节

23 年 12 月 8 日,Mistral AI 在 X 平台甩出一条磁力链接(当然,后来很多人打开一看,发现是接近 87 GB 的种子)

看上去,Mixtral 8x7B 的架构此前传闻的 GPT-4 架构非常相似(很像传闻中 GPT-4 的同款方案),但是「缩小版」:

  • 8 个专家总数,而不是 16 名(减少一半)
  • 每个专家为 7B 参数,而不是 166B(减少 24 倍)
  • 47B 总参数(估计)而不是 1.8T(减少 42 倍)
  • 与原始 GPT-4 相同的 32K 上下文

在发布后 24 小时内,已经有开发者做出了在线体验网站:https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

两天后的 23 年 12.11 日,Mistral AI 团队对外正式发布 Mixtral 8x7B,其在大多数基准测试中都优于 Llama 2 70B,推理速度提高了 6 倍,且它在大多数标准基准测试中匹配或优于 GPT3.5

为免歧义,补充说明下,Mistral AI 团队目前总共发布了两个模型

  • 今年 10 月发布的 Mistral 7B
  • 今年 12 月则发布的混合专家模型,称之为 Mixtral 8x7B

特意注意,一个 mis 一个 mix,本质不同

而 Mixtral 8x7B 是一个纯解码器模型,下图是 Mixtral 的核心参数(可以把它和 Mistral 的核心参数做个对比 )

  1. 其中前馈块从一组 8 个不同的参数组中进行选择(It is a decoder-only model where the feedforward block picks from a set of 8 distinct groups of parameters)

  2. 在每一层,对于每个 token,路由器网络选择其中的两个组(“专家”)来处理 token 并通过组合相加得到它们的输出(At every layer, for every token, a router network chooses two of these groups (the “experts”) to process the token and combine their output additively)

    这点可能很多朋友不会特别在意,但你仔细品味下,你会发现大有天地,即:每个 token 都由某两个专家负责完成,最后整个序列 则是由一系列「不同的两两专家」组合完成,下文还会详述该点

  3. 上下文长度达到 32K
    Mixtral is pretrained with multilingual data using a context size of 32k tokens

2.1.1 Mixtral 8x7B 是一个稀疏的专家混合网络

如下图所示,传入模型的各个 token 在经过 Attention 层及残差连接后,进一步将由路由(Gating/Router)导向 2 个 expert(FFN)中,之后对 expert 的输出进行加权聚合,再经过残差连接得到当前层的输出

即对于给定的输入x,MoE 模块的输出由“专家网络输出的加权和”决定,其中权重由“门控网络的输出”确定(The output of the MoE module for a given input x is determined by the weighted sum of the outputs of the expert networks , where the weights are given by the gating network’s output .)

当给定n个专家网络\left{E_{0}, E_{i}, \ldots, E_{n-1}\right},则专家层(expert layer)的输出为:

\sum_{i=0}^{n-1} G(x){i} \cdot E{i}(x)

其中

  1. G(x)_{i}表示第i 个专家的门控网络的 n 维输出(denotes the n-dimensional output of the gating network for the i-th expert)
  2. E_{i}(x) 是第i个专家网络的输出(the output of the i-th expert network)

如果门控向量稀疏,我们可以避免计算门为零的专家输出(If the gating vector is sparse, we can avoid computing the outputs of experts whose gates are zero)。有多种实现 G(x)的可选方法,但一种简单且高性能的方法是通过对线性层的 Top-K logits 进行 softmax(but a simple and performant one is implemented by taking the softmax over the Top-K logits of a linear layer [28])

G(x):=\operatorname{Softmax}\left(\operatorname{TopK}\left(x \cdot W_{g}\right)\right)

其中

  1. 如果\ell_{i}在 logits 的 top-K 坐标\ell \in \mathbb{R}^{n}中,则(\operatorname{TopK}(\ell)){i}:=\ell{i},否则(\operatorname{TopK}(\ell))_{i}:=-\infty
    where(\operatorname{TopK}(\ell)){i}:=\ell{i} if \ell_{i} is among the top-K coordinates of logits \ell \in \mathbb{R}^{n}and (\operatorname{TopK}(\ell))_{i}:=-\infty otherwise.

  2. 每个 token 所使用的专家数量K是可调的参数
    当保持K不变但增加n时,可以增加模型的总参数数量,同时保持计算成本有效不变
    The value of K – the number of experts used per token – is a hyper-parameter that modulates the amount of compute used to process each token. If one increases n while keeping K fixed, one can increase the model’s parameter count while keeping its computational cost effectively constant.

    这引出了「总参数数量(通常称为稀疏参数数量)」与用于「处理单个 token 的活动参数数量」之间的区别
    对总参数数量而言,随着n的增加而增加;而对于活动参数数量而言,K直到n逐渐增加
    This motivates a distinction between the model’s total parameter count (commonly referenced as the sparse parameter count), which grows with n, and the number of parameters used for processing an individual token (called the active parameter count), which grows with K up to n.

MoE 层能够在具备高性能专用内核的单个 GPU 上高效运行

  1. 例如,Megablocks 将 MoE 层的前馈网络(FFN)操作转换为大型稀疏矩阵乘法(Megablocks [13] casts the feed-forward network (FFN) operations of the MoE layer as large sparse matrix multiplications),从而显著提升了执行速度
    并且可以自动处理不同专家被分配可变数量 token 的情况(naturally handling cases where different experts get a variable number of tokens assigned to them.)

  2. 此外,通过标准模型并行技术和一种名为专家并行(EP)的特殊分区策略,MoE 层可以在多个 GPU 上进行分布
    Moreover, the MoE layer can be distributed to multiple GPUs through standard Model Parallelism techniques , and through a particular kind of partitioning strategy called Expert Parallelism (EP) [28].
    在 MoE 层执行过程中,旨在由特定专家处理的 token 会被路由到相应的 GPU 进行处理,并将专家输出返回到原始 token 位置 During the MoE layer’s execution, tokens meant to be processed by a specific expert are routed to the corresponding GPU for processing , and the expert’s output is returned to the original token location.

    需要注意的是,在负载平衡方面,EP 带来了挑战,因为均匀地分配工作负载至关重要以避免单个 GPU 过载或遇到计算瓶颈
    Note that EP introduces challenges in load balancing, as it is essential to distribute the workload evenly across the GPUs to prevent overloading individual GPUs or hitting computational bottlenecks.

在 Transformer 模型中,MoE 层独立应用于每个 token,并替换了 Transformer 块的前馈(FFN)子块(In a Transformer model, the MoE layer is applied independently per token and replaces the feed-forward (FFN) sub-block of the transformer block)

对于 Mixtral

  1. 采用与专家函数E_{i}(x)相同的 SwiGLU 架构,并设置 K = 2
  2. 这意味着每个 token 被路由到两个具有不同权重集的 SwiGLU 子块
    For Mixtral we use the same SwiGLU architecture as the expert function Ei(x) and set K = 2

综上,输入 token x经过处理后得到输出y(This means each token is routed to two SwiGLU sub-blocks with different sets of weights)

y=\sum_{i=0}^{n-1} \operatorname{Softmax}\left(\operatorname{Top} 2\left(x \cdot W_{g}\right)\right){i} \cdot \operatorname{SwiGLU}{i}(x)

这个公式类似于 GShard 架构,不同之处是 mixtral 用 MoE 层替换所有 FFN 子块,而 GShard 替换所有其他块,并且 GShard 对分配给每个 token 的第二个专家使用更详细的门策略

2.1.2 Mixtral 的参数总量为何是 46.7B 而非 56B

Mixtral 共有 46.7B 个参数,但每个 token 仅使用 12.9B 个参数。因此,它以与 12.9B 模型相同的速度和相同的成本处理输入并生成输出( Mixtral has 46.7B total parameters but only uses 12.9B parameters per token. It, therefore, processes input and generates output at the same speed and for the same cost as a 12.9B model )

  1. 即,虽然 Mixtral 模型的完整名称为“Mixtral-8x7B-v0.1”,看似有“8x7B=56B”的参数量,但实际的参数量应当是约 47B 而非 56B,因为在各个层中仅有 experts 部分(FFN)是独立存在的,其余的部分(Attention 等)则是各个 expert 均有共享的
  2. 可以想象成一个“纺锤状”的样式,数据由共享模块传输至 expert 模块对应于纺锤中部发散的部分,对 expert 的输出进行加权聚合则对应纺锤末端收束的部分

2.1.3 Mixtral 中所采取的 GQA 机制

Mixtral 沿用了 Mistral 7B 中所采取的 GQA 机制,与传统的 MHA(Multi-Head Attention)相比,主要是对 Attention 机制中的 K、V 表征维度进行控制,从而降低 K、V 对应的参数量,除 GQA 外相应地还有 MQA(Multi-Query Attention),MQA 可以认为是 GQA 的特例。相关维度如下表所示:

Q K V
MHA hidden_dim hidden_dim hidden_dim
GQA hidden_dim hidden_dim/n hidden_dim/n
MQA hidden_dim 1 1

其中 n 为 K 和 V 相对 MHA 参数量降低的比例,具体地,在 Mixtral 中 n 为 4

关于 GQA 的更多细节详见此文《一文通透各种注意力:从多头注意力 MHA 到分组查询注意力 GQA、多查询注意力 MQA

2.1.4 Mixtral 中的路由(Gating/Router)

路由(Gating/Router)本质是一个线性层,输入维度为隐层维度 hidden_dim、输出维度为 expert 数 num_experts。正向传播过程中将被用作预测给定 token 对应输入各个 expert 的分值

self.gate = nn.Linear(self.hidden_dim, self.num_experts, bias=False)

至于路由处理的对象可以是 Sentence-Level、Token-Level 或者 Task-Level

  • Sentence-Level 是对各个样本分别进行路由
  • Token-Level 是对样本中的各个 token 分别进行路由
  • Task-Level 要求不同的 expert 明确负责不同任务

因此同样也是对各个样本分别进行路由,但其所路由的目标 expert 是有明确导向的,例如某样本的数据还提供有“所属任务”信息,通过该信息可明确将该样本导向某个专职负责对应任务的 expert 中

Mixtral 采取了 Token-Level 的处理单位

  1. 至于首次在 NLP 任务中使用 Token-Level 的 MOE 可以追溯至 2017 年的《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
  2. 该论文展示了 Token-Level 的一些有趣现象,通过观察各个 expert 所负责 token 的统计特征,不同的 expert 确实掌握了一些语法层面理解, 当需要不定冠词“a”在重要的动词短语中引入直接宾语时,则会有专门的 752 号 expert 来负责输出这个“a”

2.2 模型表现:匹配或超越Llama 2 70B 以及 GPT3.5

我们将 Mixtral 与 Llama 2 系列和 GPT3.5 基础模型进行比较。Mixtral 在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5

性能概览

在下图中的测试,衡量了质量与推理预算的权衡。与 Llama 2 相比,Mistral 7B 和 Mixtral 8x7B 更高效

性能规模

下表给出了上图的详细结果

详细的基准测试

为了识别可能的缺陷,通过微调/偏好建模来纠正,测量了其在 BBQ/BOLD 上的性能

![BBQ BOLD 基准](http://aiqianji.oss-cn-shenzhen.aliyuncs.com/images/2024/03/09/ee57671a71edf093e709