[论文翻译]Comet: 面向混合专家的细粒度计算-通信重叠

专家混合 (Mixture-of-experts, MoE) 已被广泛用于将大语言模型扩展到万亿级参数，同时保持固定的计算成本。在分布式场景中开发大型 MoE 模型时，会遇到通信开销过大的问题。在使用流行模型和框架时，MoE 层的设备间通信可能占据整个模型执行时间的 \$47\%\$。因此，现有方法建议将 MoE 层的通信与计算流水线化以实现重叠。然而，这些粗粒度的重叠方案显著降低了计算效率，并且延迟隐藏效果也不理想。