英伟达发布 Llama-3.1-Nemotron-51B AI 模型创新神经架构搜索等技术让单 H100 GPU

2024-09-25 16:21:31 | 弘乐 | 936

近日，英伟达发布博文，宣布推出 Llama-3.1-Nemotron-51B AI 模型，源自 Meta 公司的 Llama-3.1-70B，不过创新使用神经架构搜索（NAS）方法，建立了一个高度准确和高效的模型。

Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型，共有 510 亿参数。该 AI 模型主要采用了神经架构搜索（NAS）技术微调，平衡性能和效率，在高工作负荷下，只需要一片 H100 GPU 即可运行，大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

英伟达认为这种方式在保持了出色的精度前提下，显著降低了内存占用、内存带宽和 FLOPs，并证明可以在创建另一个更小、更快的变体来加以推广。

相比较 Meta 的 Llama-3.1-70B 模型，Llama-3.1-Nemotron-51B 在保持了几乎相同的精度情况下，推理速度提高了 2.2 倍。Llama-3.1-Nemotron-51B 实现了令人印象深刻的精度与效率权衡，减少了内存带宽，降低了每秒浮点运算次数 (FLOP)，并减少了总体内存占用，同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

英伟达通过采用 NAS 技术来优化推理模型，从而解决了这些问题。该团队采用了分块蒸馏过程，即训练更小、更高效的学生模型（student model），以模仿更大的教师模型（teacher model）的功能。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。

英伟达发布 Llama-3.1-Nemotron-51B AI 模型 创新神经架构搜索等技术让单 H100 GPU

英伟达发布 Llama-3.1-Nemotron-51B AI 模型创新神经架构搜索等技术让单 H100 GPU