英伟达展示 Blackwell GPU 在 AI 训练中的强大性能 比 Hopper 快 2.2 倍
近日,据科技媒体报道,英伟达(NVIDIA)于 11 月 13 日首次公布了其新一代 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载中的成绩,结果令人印象深刻。Blackwell GPU 在训练 Llama 2 70B(微调)模型时,相比上一代 Hopper H100 GPU,表现出 2.2 倍的性能提升,标志着英伟达在 AI 加速领域的一次重大飞跃。
随着人工智能领域对计算能力需求的指数级增长,AI 模型的训练和推理性能已成为衡量硬件加速器的重要标准。英伟达在此次发布的基准测试中展示了 Blackwell GPU 在多个常见 AI 训练工作负载中的卓越表现。主要的测试模型包括:Llama 2 70B(大规模语言模型微调)、Stable Diffusion(文本到图像生成)、DLRMv2(推荐系统)、BERT(自然语言处理)、RetinaNet(目标检测)、GPT-3 175B(大规模语言模型预训练)、R-GAT(图神经网络)。
根据英伟达的官方声明,Blackwell GPU 采用了一系列设计创新,旨在大幅提升每个 GPU 的计算吞吐量。特别是,Blackwell 配备了更大更快的高带宽内存,这使其在不降低性能的情况下,能够在更少的 GPU 数量上运行更复杂的 AI 模型。例如,在 GPT-3 175B 基准测试中,64 张 Blackwell GPU 的性能可以媲美 256 张 Hopper GPU。
这一技术优势使得 Blackwell 在多个关键性能指标上超越了 Hopper H100 GPU,尤其是在处理大规模 AI 模型训练时,其效率和性能优势十分明显。英伟达指出,这一进步对于数据中心级别的应用至关重要,能够显著提升 AI 训练的速度和成本效益。
虽然 Blackwell GPU 的表现令人瞩目,但英伟达的 Hopper H100 GPU 也在持续优化中取得了显著进展。自发布以来,Hopper GPU 在多次软件更新中提升了性能,尤其是在大规模语言模型(LLM)预训练任务中,H100 GPU 在 GPT-3 训练中的表现提升了约 70%。英伟达还利用 11616 个 H100 GPU 提交了 MLPerf 的最大规模基准测试,进一步验证了其在大规模 AI 训练中的强大能力。