Mixtral 8x7B 的推出在开放 AI 领域引发了广泛关注,特别是混合专家(Mixture-of-Experts:MoEs)这一概念被大家所认知。混合专家(MoE)概念是协作智能的象征,体现了“整体大于部分之和”的说法。MoE 模型汇集了各种专家模型的优势,以提供更好的预测。它是围绕一个门控网络和一组专家网络构建的,每个专家网络都擅长特定任务的不同方面
在本文中,我将使用 Pytorch 来实现一个 MoE 模型。在具体代码之前,让我们先简单介绍一下混合专家的体系结构。
MoE 架构
MoE 由两种类型的网络组成:(1)专家网络和(2)门控网络。
专家网络:专家网络是专有模型,每个模型都经过训练,在数据的一个子集中表现出色。MoE 的理念是拥有多名优势互补的专家,确保对问题空间的全面覆盖。
门控网络:门控网络充当指挥,协调或管理个别专家的贡献。它学习(或权衡)哪个网络擅长处理哪种类型的输入。经过训练的门控网络可以评估新的输入向量,并根据专家的熟练程度将处理责任分配给最合适的专家或专家组合。门控网络根据专家的输出与当前输入的相关性动态调整其权重,确保定制响应。
混合专家模型的优点在于它的简单。通过学习复杂的问题空间以及专家在解决问题时的反应,MoE 模型有助于产生比单个专家更好的解决方案。门控网络作为一个有效的管理者,评估情景并将任务传递给最佳专家。当新数据输入时,模型可以通过重新评估专家对新输入的优势来适应,从而产生灵活的学习方法。
MoE 为部署机器学习模型提供了巨大的好处。以下是两个显著的好处。
MoE 的核心优势在于其专家网络的多元化和专业化。MoE 的设置能够以单一模型可能难以达到的精度处理多方面的问题。
MoE 具有固有的可伸缩性。随着任务复杂性的增加,可以在不改变其他专家模型的情况下将更多专家无缝地集成到系统中,扩大专业知识的范围。也就是说,MoE 可以帮助将预先训练过的专家打包到机器学习系统中。
混合专家模型在许多领域都有应用,包括推荐系统、语言建模和各种复杂的预测任务。有传言称,GPT-4 是由多个专家组成的。尽管我们无法确认,但类似 gpt -4 的模型将通过 MoE 方法利用多个模型的力量来提供最佳结果。
Pytorch 代码
我们这里不讨论 Mixtral 8x7B 这种大模型中使用的 MOE 技术,而是我们编写一个简单的,可以应用在任何任务中的自定义 MOE,通过代码我们可以了解 MOE 的工作原理,这样对我们理解 MOE 在大模型中的工作方式是非常有帮助的。
下面我们将一段一段地介绍 PyTorch 的代码实现。
导入库:
import torch
import torch.nn as nn
import torch.optim as optim
定义专家模型:
class Expert(nn.Module):
def __init__(self, input_dim, hidden_dim, output_dim):
super(Expert, self).__init__()
self.layer1 = nn.Linear(input_dim, hidden_dim)
self.layer2 = nn.Linear(hidden_dim, output_dim)
def forward(self, x):
x = torch.relu(self.layer1(x))
return torch.softmax(self.layer2(x), dim=1)
这里我们定义了一个简单的专家模型,可以看到它是一个 2 层的 mlp,使用了 relu 激活,最后使用 softmax 输出分类概率。
定义门控模型:
# Define the gating model
class Gating(nn.Module):
def __init__(self, input_dim,
num_experts, dropout_rate=0.1):
super(Gating, self).__init__()
# Layers
self.layer1 = nn.Linear(input_dim, 128)
self.dropout1 = nn.Dropout(dropout_rate)
self.layer2 = nn.Linear(128, 256)
self.leaky_relu1 = nn.LeakyReLU()
self.dropout2 = nn.Dropout(dropout_rate)
self.layer3 = nn.Linear(256, 128)
self.leaky_relu2 = nn.LeakyReLU()
self.dropout3 = nn.Dropout(dropout_rate)
self.layer4 = nn.Linear(128, num_experts)
def forward(self, x):
x = torch.relu(self.layer1(x))
x = self.dropout1(x)
x = self.layer2(x)
x = self.leaky_relu1(x)
x = self.dropout2(x)
x = self.layer3(x)
x = self.leaky_relu2(x)
x = self.dropout3(x)
return torch.softmax(self.layer4(x), dim=1)
门控模型更复杂,有三个线性层和 dropout 层用于正则化以防止过拟合。它使用 ReLU 和 LeakyReLU 激活函数引入非线性。最后一层的输出大小等于专家的数量,并对这些输出应用 softmax 函数。输出权重,这样可以将专家的输出与之结合。
说明:其实门控网络,或者叫路由网络是 MOE 中最复杂的部分,因为它涉及到控制输入到那个专家模型,所以门控网络也有很多个设计方案,例如(如果我没记错的话)Mixtral 8x7B 只是取了 8 个专家中的 top2。所以我们这里不详细讨论各种方案,只是介绍其基本原理和代码实现。
完整的 MOE 模型:
class MoE(nn.Module):
def __init__(self, trained_experts):
super(MoE, self).__init__()
self.experts = nn.ModuleList(trained_experts)
num_experts = len(trained_experts)
# Assuming all experts have the same input dimension
input_dim = trained_experts[0].layer1.in_features
self.gating = Gating(input_dim, num_experts)
def forward(self, x):
# Get the weights from the gating network
weights = self.gating(x)
# Calculate the expert outputs
outputs = torch.stack([expert(x) for expert in self.experts], dim=2)
# Adjust the weights tensor shape to match the expert outputs
weights = weights.unsqueeze(1).expand_as(outputs)
# Multiply the expert outputs with the weights and
# sum along the third dimension
return torch.sum(outputs * weights, dim=2)
这里主要看前向传播的代码,通过输入计算出权重和每个专家给出输出的预测,最后使用权重将所有专家的结果求和最终得到模型的输出。
这个是不是有点像“集成学习”。
测试
下面我们来对我们的实现做个简单的测试,首先生成一个简单的数据集:
# Generate the dataset
num_samples = 5000
input_dim = 4
hidden_dim = 32
# Generate equal numbers of labels 0, 1, and 2
y_data = torch.cat([
torch.zeros(num_samples // 3),
torch.ones(num_samples // 3),
torch.full((num_samples - 2 * (num_samples // 3),), 2) # Filling the remaining to ensure exact num_samples
]).long()
# Biasing the data based on the labels
x_data = torch.randn(num_samples, input_dim)
for i in range(num_samples):
if y_data[i] == 0:
x_data[i, 0] += 1 # Making x[0] more positive
elif y_data[i] == 1:
x_data[i, 1] -= 1 # Making x[1] more negative
elif y_data[i] == 2:
x_data[i, 0] -= 1 # Making x[0] more negative
# Shuffle the data to randomize the order
indices = torch.randperm(num_samples)
x_data = x_data[indices]
y_data = y_data[indices]
# Verify the label distribution
y_data.bincount()
# Shuffle the data to ensure x_data and y_data remain aligned
shuffled_indices = torch.randperm(num_samples)
x_data = x_data[shuffled_indices]
y_data = y_data[shuffled_indices]
# Splitting data for training individual experts
# Use the first half samples for training individual experts
x_train_experts = x_data[:int(num_samples/2)]
y_train_experts = y_data[:int(num_samples/2)]
mask_expert1 = (y_train_experts == 0) | (y_train_experts == 1)
mask_expert2 = (y_train_experts == 1) | (y_train_experts == 2)
mask_expert3 = (y_train_experts == 0) | (y_train_experts == 2)
# Select an almost equal number of samples for each expert
num_samples_per_expert = \
min(mask_expert1.sum(), mask_expert2.sum(), mask_expert3.sum())
x_expert1 = x_train_experts[mask_expert1][:num_samples_per_expert]
y_expert1 = y_train_experts[mask_expert1][:num_samples_per_expert]
x_expert2 = x_train_experts[mask_expert2][:num_samples_per_expert]
y_expert2 = y_train_experts[mask_expert2][:num_samples_per_expert]
x_expert3 = x_train_experts[mask_expert3][:num_samples_