[智能分析]DeepSeek 开源周发布 DeepEP 和 DeepGEMM

在人工智能技术快速发展的背景下，开源项目的推出为研究者和开发者提供了更为高效的工具和资源。2025年2月26日，DeepSeek 开源周迎来了其第二弹，推出了专为混合专家模型（MoE）和专家并行（EP）设计的开源通信库——DeepEP。该库旨在提升大规模 AI 模型的训练和推理效率，犹如为 MoE 模型构建了一条“数据高速公路”，使得多个“专家”之间的协作更加迅速和高效。

与此同时，DeepSeek 还宣布了第三弹的开源项目——DeepGEMM，进一步丰富了其开源生态系统。这些新工具的发布不仅为 AI 开发者提供了更强大的支持，也推动了 AI 模型的创新与应用，助力于解决复杂的计算问题。

随着 DeepEP 和 DeepGEMM 的推出，DeepSeek 正在为 AI 领域的研究与应用开辟新的可能性，促进了技术的共享与协作，展现了开源社区在推动科技进步方面的重要作用。

DeepGEMM的概述及其特性

设计理念与目标

DeepGEMM是一个专为高效执行FP8（8位浮点数）通用矩阵乘法（GEMM）而设计的库，旨在通过细粒度缩放来提升性能。该库的设计灵感来源于DeepSeek-V3项目，专注于在NVIDIA Hopper架构的张量核心上实现高效的矩阵运算。DeepGEMM的主要目标是提供一种简洁、易于使用的解决方案，以便研究人员和开发者能够在深度学习应用中更好地利用低精度计算。

DeepGEMM的一个显著特点是其运行时编译能力。与传统的静态编译库不同，DeepGEMM采用轻量级的即时编译（JIT）模块，在运行时动态编译所有内核。这种设计不仅简化了安装过程，还提升了灵活性，使得用户可以在不同的硬件配置上快速适应。

性能表现

在性能方面，DeepGEMM的表现相当出色，甚至在某些情况下超越了专家调优的库。根据测试结果，DeepGEMM在多种矩阵形状下的计算速度显著提升。例如，在使用H800 GPU和CUDA 12.8的情况下，DeepGEMM在多个矩阵形状上的计算性能如下：

对于64x2112x7168的矩阵，DeepGEMM实现了206 TFLOPS的计算能力，内存带宽为1688 GB/s，速度提升达2.7倍。
在64x24576x1536的配置下，性能达到289 TFLOPS，内存带宽为2455 GB/s，速度提升为1.7倍。
其他配置如64x32768x512和64x7168x16384等也显示了相似的性能优势。

这些数据表明，DeepGEMM在处理大规模矩阵运算时，能够有效利用硬件资源，提供高效的计算能力。

支持的功能与应用

DeepGEMM不仅支持常规的GEMM操作，还支持“专家混合”（Mix-of-Experts, MoE）分组GEMM。这一特性使得DeepGEMM在处理复杂模型时，能够更好地适应不同的计算需求。MoE模型通常需要在多个专家之间分配和汇总数据，DeepGEMM通过优化的分组策略，提升了这一过程的效率。

此外，DeepGEMM的设计考虑到了FP8张量核心的精度问题。为了解决FP8张量核心在累加过程中的不精确性，DeepGEMM采用了CUDA核心的两级累加（promotion）策略。这种方法通过在计算过程中引入更高精度的累加，确保了最终结果的准确性。

开发与安装

DeepGEMM的开发过程注重简洁性和易用性。用户只需满足以下基本要求即可开始使用：

支持Hopper架构的GPU，sm_90a及以上。
Python 3.8或更高版本。
CUDA 12.3或更高版本（推荐使用CUDA 12.8以获得最佳性能）。
PyTorch 2.1或更高版本。
CUTLASS 3.6或更高版本（可通过Git子模块克隆）。

安装过程也相对简单，用户只需执行以下命令：

git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git
python setup.py develop
python tests/test_jit.py
python tests/test_core.py
python setup.py install

安装完成后，用户可以在Python项目中导入deep_gemm模块，便于进行后续的矩阵运算。

未来发展与社区贡献

DeepGEMM的开发团队鼓励社区参与优化和扩展库的功能。尽管DeepGEMM在多个矩阵形状下表现出色，但在某些特定形状下的性能仍有提升空间。开发者可以通过提交优化请求（PR）来贡献自己的代码，帮助提升库的整体性能。

此外，DeepGEMM的开源性质使得其在学术研究和工业应用中具有广泛的适用性。随着越来越多的研究人员和开发者加入到DeepGEMM的使用和优化中，预计将会有更多的功能和改进被引入，从而推动FP8计算在深度学习领域的应用。

DeepGEMM的发布不仅为高效的矩阵运算提供了新的解决方案，也为低精度计算的研究提供了一个良好的平台。随着技术的不断发展，DeepGEMM有望在未来的深度学习应用中发挥更大的作用。

DeepEP与DeepGEMM对AI模型训练和推理效率的影响

DeepEP的技术优势与应用

DeepEP作为DeepSeek推出的开源专家并行通信库，专门针对Mixture-of-Experts（MoE）模型的训练和推理进行了优化。其主要创新在于高吞吐量和低延迟的通信内核设计，这使得在大规模AI工作负载中，GPU之间的计算分配变得更加高效。DeepEP通过优化所有对所有的GPU通信，解决了在多GPU环境中计算分配的瓶颈问题，显著提升了训练时间和推理效率。

DeepEP的设计考虑到了现代AI模型的复杂性，特别是在处理需要跨多个专家的任务时。其双内核架构允许在高吞吐量和低延迟之间灵活切换，适应不同的应用