DeepSeek开源DeepEP 首个MoE模型训练与推理的EP通信库

2025-02-25 18:41:54   |   嫣然   |   3729

2月25日,继昨日开源Flash MLA之后,DeepSeek正式向公众开源了其最新的技术成果——DeepEP。这是首个专为混合专家(MoE)模型训练与推理设计的开源EP(Expert Parallelism)通信库。

DeepEP:高吞吐量与低延迟的完美结合

DeepEP是DeepSeek为MoE模型训练和推理量身定制的通信库,提供了高吞吐量和低延迟的支持,特别适用于GPU内核和高性能计算任务。它不仅支持低精度操作,如FP8格式,还通过深入优化支持NVLink与RDMA(远程直接内存访问)技术,提升了GPU间的通信效率和带宽。DeepEP的设计考虑到了不同硬件架构下的性能瓶颈,尤其在跨节点高效通信和带宽转发场景中提供了卓越的性能。

对于对延迟敏感的推理解码任务,DeepEP提供了一组低延迟内核,并利用纯RDMA技术最大限度减少延迟。此外,DeepEP采用了基于钩子的通信计算重叠方法,这一创新可以有效避免占用SM(Streaming Multiprocessors)资源,从而优化系统的整体性能。

虽然DeepEP的核心思想来源于DeepSeek-V3论文,但DeepSeek明确表示,DeepEP的实现可能在某些细节上有所不同,特别是在优化算法和系统架构方面。此开源库将为MoE模型的研究者和开发者提供更多的灵活性与创新空间,推动该领域的技术进步。

DeepEP的实际性能与测试结果

DeepSeek已在多个硬件环境下对DeepEP进行测试,确保其在高吞吐量与低延迟场景下的可靠性。在H800平台上,DeepEP在常规内核和低延迟内核的测试中均表现出色。每台设备连接至CX7 InfiniBand 400 Gb/s的RDMA网卡,最大带宽达到50 GB/s。测试还使用了DeepSeek-V3/R1预训练设置(包括每批次4096个Tokens和7168个隐藏层单元),并在FP8和BF16格式下进行调度和合并,确保了高效的计算性能。

DeepEP支持以下硬件和软件环境:Hopper GPU(未来可能支持更多架构或设备)、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于内部节点通信、RDMA网络用于节点间通信。

DeepSeek表示,通过开源DeepEP,团队希望能够推动MoE模型在训练和推理阶段的进一步优化,同时为广大研究者、开发者提供一套强大且易于使用的工具,推动高效并行计算和分布式训练技术的发展。

对于希望在MoE模型及其他大规模深度学习任务中实现更高性能的开发者和企业,DeepEP将是一个不可或缺的利器。DeepSeek期待通过这项技术为AI研究和应用的快速发展贡献力量。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

DeepSeek开源DeepEP 首个MoE模型训练与推理的EP通信库

2025-02-25 18:41:54 浏览量: 3729 作者: 嫣然

2月25日,继昨日开源Flash MLA之后,DeepSeek正式向公众开源了其最新的技术成果——DeepEP。这是首个专为混合专家(MoE)模型训练与推理设计的开源EP(Expert Parallelism)通信库。

DeepEP:高吞吐量与低延迟的完美结合

DeepEP是DeepSeek为MoE模型训练和推理量身定制的通信库,提供了高吞吐量和低延迟的支持,特别适用于GPU内核和高性能计算任务。它不仅支持低精度操作,如FP8格式,还通过深入优化支持NVLink与RDMA(远程直接内存访问)技术,提升了GPU间的通信效率和带宽。DeepEP的设计考虑到了不同硬件架构下的性能瓶颈,尤其在跨节点高效通信和带宽转发场景中提供了卓越的性能。

对于对延迟敏感的推理解码任务,DeepEP提供了一组低延迟内核,并利用纯RDMA技术最大限度减少延迟。此外,DeepEP采用了基于钩子的通信计算重叠方法,这一创新可以有效避免占用SM(Streaming Multiprocessors)资源,从而优化系统的整体性能。

虽然DeepEP的核心思想来源于DeepSeek-V3论文,但DeepSeek明确表示,DeepEP的实现可能在某些细节上有所不同,特别是在优化算法和系统架构方面。此开源库将为MoE模型的研究者和开发者提供更多的灵活性与创新空间,推动该领域的技术进步。

DeepEP的实际性能与测试结果

DeepSeek已在多个硬件环境下对DeepEP进行测试,确保其在高吞吐量与低延迟场景下的可靠性。在H800平台上,DeepEP在常规内核和低延迟内核的测试中均表现出色。每台设备连接至CX7 InfiniBand 400 Gb/s的RDMA网卡,最大带宽达到50 GB/s。测试还使用了DeepSeek-V3/R1预训练设置(包括每批次4096个Tokens和7168个隐藏层单元),并在FP8和BF16格式下进行调度和合并,确保了高效的计算性能。

DeepEP支持以下硬件和软件环境:Hopper GPU(未来可能支持更多架构或设备)、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于内部节点通信、RDMA网络用于节点间通信。

DeepSeek表示,通过开源DeepEP,团队希望能够推动MoE模型在训练和推理阶段的进一步优化,同时为广大研究者、开发者提供一套强大且易于使用的工具,推动高效并行计算和分布式训练技术的发展。

对于希望在MoE模型及其他大规模深度学习任务中实现更高性能的开发者和企业,DeepEP将是一个不可或缺的利器。DeepSeek期待通过这项技术为AI研究和应用的快速发展贡献力量。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号