DeepSeek开源DeepEP 首个MoE模型训练与推理的EP通信库

2025-02-25 18:41:54 | 嫣然 | 3729

2月25日，继昨日开源Flash MLA之后，DeepSeek正式向公众开源了其最新的技术成果——DeepEP。这是首个专为混合专家（MoE）模型训练与推理设计的开源EP（Expert Parallelism）通信库。

DeepEP：高吞吐量与低延迟的完美结合

DeepEP是DeepSeek为MoE模型训练和推理量身定制的通信库，提供了高吞吐量和低延迟的支持，特别适用于GPU内核和高性能计算任务。它不仅支持低精度操作，如FP8格式，还通过深入优化支持NVLink与RDMA（远程直接内存访问）技术，提升了GPU间的通信效率和带宽。DeepEP的设计考虑到了不同硬件架构下的性能瓶颈，尤其在跨节点高效通信和带宽转发场景中提供了卓越的性能。

对于对延迟敏感的推理解码任务，DeepEP提供了一组低延迟内核，并利用纯RDMA技术最大限度减少延迟。此外，DeepEP采用了基于钩子的通信计算重叠方法，这一创新可以有效避免占用SM（Streaming Multiprocessors）资源，从而优化系统的整体性能。

虽然DeepEP的核心思想来源于DeepSeek-V3论文，但DeepSeek明确表示，DeepEP的实现可能在某些细节上有所不同，特别是在优化算法和系统架构方面。此开源库将为MoE模型的研究者和开发者提供更多的灵活性与创新空间，推动该领域的技术进步。

DeepEP的实际性能与测试结果

DeepSeek已在多个硬件环境下对DeepEP进行测试，确保其在高吞吐量与低延迟场景下的可靠性。在H800平台上，DeepEP在常规内核和低延迟内核的测试中均表现出色。每台设备连接至CX7 InfiniBand 400 Gb/s的RDMA网卡，最大带宽达到50 GB/s。测试还使用了DeepSeek-V3/R1预训练设置（包括每批次4096个Tokens和7168个隐藏层单元），并在FP8和BF16格式下进行调度和合并，确保了高效的计算性能。

DeepEP支持以下硬件和软件环境：Hopper GPU（未来可能支持更多架构或设备）、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于内部节点通信、RDMA网络用于节点间通信。

DeepSeek表示，通过开源DeepEP，团队希望能够推动MoE模型在训练和推理阶段的进一步优化，同时为广大研究者、开发者提供一套强大且易于使用的工具，推动高效并行计算和分布式训练技术的发展。

对于希望在MoE模型及其他大规模深度学习任务中实现更高性能的开发者和企业，DeepEP将是一个不可或缺的利器。DeepSeek期待通过这项技术为AI研究和应用的快速发展贡献力量。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。