NVIDIA推出Spectrum-X 超大规模生成式AI的加速以太网平台
5月30日,英伟达首席执行官黄仁勋在 Computex 计算机技术大会开幕式上发表了一系列新产品,其中包括一种新型以太网交换机,专门用于为人工智能移动大量数据任务。 “我们如何引入一个新的以太网,向后兼容所有东西,将每个数据中心变成一个生成人工智能数据中心?” 黄仁勋在他的主题演讲中提出。“这是我们第一次将高性能计算的能力带入以太网市场。”
据黄仁勋称,Spectrum-X 是众所周知的以太网产品系列,是“世界上第一个用于 AI 的高性能以太网”。网络高级副总裁 Gilad Shainer 在媒体简报会上表示,该技术的一个关键特性是它“不会丢失数据包”。 其表示,Spectrum-X 的第一个迭代版本是 Spectrum-4,它被称为“世界上第一个专为 AI 网络构建的 51Tb/sec 以太网交换机”。该交换机与 Nvidia 的 BlueField 数据处理单元或 DPU、处理数据获取和排队的芯片以及 Nvidia 光纤收发器一起工作。该公司表示,该交换机可以端到端路由 128 个 400G 以太网端口,或 64 个 800G 端口。
黄仁勋在舞台上举起了银色的 Spectrum-4 以太网交换机芯片,指出它是“巨大的”,在 90 毫米 x 90 毫米的芯片上由 1000 亿个晶体管组成,芯片采用台积电的“4N”工艺技术制造。Huang 说,该部件的运行功率为 500 瓦。
Nvidia 的芯片有可能改变以太网网络市场。绝大多数开关硅由芯片制造商 Broadcom 提供。这些交换机出售给网络设备制造商 Cisco Systems、Arista Networks、Extreme Networks、Juniper Networks 等。这些公司一直在扩展他们的设备,以更好地处理人工智能流量。 Spectrum-X 系列旨在解决数据中心分为两种形式的问题。一种形式是 Huang 所说的“AI 工厂”,这些设施耗资数亿美元用于最强大的 GPU,这些 GPU 基于 Nvidia 的 NVLink 和 Infiniband,用于 AI 训练,服务于少量非常大的工作负载。
另一种类型的数据中心设施是 AI 云,它是多租户的,基于以太网,同时为客户处理成百上千的工作负载,它专注于向 AI 消费者提供预测等事情,这将由 Spectrum-X 提供服务。
Shainer 说,Spectrum-X 能够“以最佳方式在网络中传播流量”,使用“一种新的拥塞控制机制”,避免了网络内存缓冲区中可能发生的数据包堆积路由器。
Nvidia 表示,它正在其以色列办事处建造一台名为 Israel-1 的测试台计算机,这是一台“生成式 AI 超级计算机”,使用由 H100 GPU 组成的 Dell PowerEdge XE9680 服务器在 Spectrum-4 交换机上运行数据。
除了宣布其新的以太网技术外,Huang 的主题演讲还介绍了该公司用于 AI 的“DGX”系列计算机的新型号 DGX GH200,该公司将其称为“用于巨人的新型大内存 AI 超级计算机”。生成人工智能模型”。
生成式 AI是指产生的不仅仅是分数的程序,有时是文本,有时是图像,有时是其他工件,例如 OpenAI 的ChatGPT。GH200 是第一个配备该公司所谓的“超级芯片”的系统,Grace Hopper 板在单个电路板上包含一个 Hopper GPU,以及 Grace CPU,一个基于 ARM 指令集的 CPU,旨在与 Intel 和 Advanced Micro Devices 的 x86 CPU 竞争。
黄仁勋说,Grace Hopper 的第一个迭代版本 GH200 已“全面投产”。Nvidia 在一份新闻稿中表示,“欧洲和美国的全球超大规模运营商和超级计算中心是可以使用 GH200 驱动系统的几家客户之一。”Nvidia 表示,DGX GH200 结合了 256 个超级芯片,实现了 1 exaflops 的组合——10 次方的 18 次方,即每秒十亿、十亿次浮点运算——利用了 144 TB 的共享内存。据 Nvidia 称,该计算机的速度是 2020 年发布的原始 DGX A100 机器的 500 倍。
主题演讲还推出了 MGX,这是一种参考架构,可供系统制造商快速且经济高效地构建 100 多种服务器变体。Nvidia 表示,首批使用该规范的合作伙伴是 ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT 和 Supermicro,其中 QCT 和 Supermicro 将于 8 月率先将系统推向市场。