DeepSeek开源DeepEP 首个MoE模型训练与推理的EP通信库
2月25日,继昨日开源Flash MLA之后,DeepSeek正式向公众开源了其最新的技术成果——DeepEP。这是首个专为混合专家(MoE)模型训练与推理设计的开源EP(Expert Parallelism)通信库。
DeepEP:高吞吐量与低延迟的完美结合
DeepEP是DeepSeek为MoE模型训练和推理量身定制的通信库,提供了高吞吐量和低延迟的支持,特别适用于GPU内核和高性能计算任务。它不仅支持低精度操作,如FP8格式,还通过深入优化支持NVLink与RDMA(远程直接内存访问)技术,提升了GPU间的通信效率和带宽。DeepEP的设计考虑到了不同硬件架构下的性能瓶颈,尤其在跨节点高效通信和带宽转发场景中提供了卓越的性能。
对于对延迟敏感的推理解码任务,DeepEP提供了一组低延迟内核,并利用纯RDMA技术最大限度减少延迟。此外,DeepEP采用了基于钩子的通信计算重叠方法,这一创新可以有效避免占用SM(Streaming Multiprocessors)资源,从而优化系统的整体性能。
虽然DeepEP的核心思想来源于DeepSeek-V3论文,但DeepSeek明确表示,DeepEP的实现可能在某些细节上有所不同,特别是在优化算法和系统架构方面。此开源库将为MoE模型的研究者和开发者提供更多的灵活性与创新空间,推动该领域的技术进步。
DeepEP的实际性能与测试结果
DeepSeek已在多个硬件环境下对DeepEP进行测试,确保其在高吞吐量与低延迟场景下的可靠性。在H800平台上,DeepEP在常规内核和低延迟内核的测试中均表现出色。每台设备连接至CX7 InfiniBand 400 Gb/s的RDMA网卡,最大带宽达到50 GB/s。测试还使用了DeepSeek-V3/R1预训练设置(包括每批次4096个Tokens和7168个隐藏层单元),并在FP8和BF16格式下进行调度和合并,确保了高效的计算性能。
DeepEP支持以下硬件和软件环境:Hopper GPU(未来可能支持更多架构或设备)、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于内部节点通信、RDMA网络用于节点间通信。
DeepSeek表示,通过开源DeepEP,团队希望能够推动MoE模型在训练和推理阶段的进一步优化,同时为广大研究者、开发者提供一套强大且易于使用的工具,推动高效并行计算和分布式训练技术的发展。
对于希望在MoE模型及其他大规模深度学习任务中实现更高性能的开发者和企业,DeepEP将是一个不可或缺的利器。DeepSeek期待通过这项技术为AI研究和应用的快速发展贡献力量。