英伟达发布 Llama-3.1-Nemotron-51B AI 模型 创新神经架构搜索等技术让单 H100 GPU

2024-09-25 16:21:31   |   弘乐   |   932

近日,英伟达发布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不过创新使用神经架构搜索(NAS)方法,建立了一个高度准确和高效的模型。

Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型,共有 510 亿参数。该 AI 模型主要采用了神经架构搜索(NAS)技术微调,平衡性能和效率,在高工作负荷下,只需要一片 H100 GPU 即可运行,大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

英伟达认为这种方式在保持了出色的精度前提下,显著降低了内存占用、内存带宽和 FLOPs,并证明可以在创建另一个更小、更快的变体来加以推广。

相比较 Meta 的 Llama-3.1-70B 模型,Llama-3.1-Nemotron-51B 在保持了几乎相同的精度情况下,推理速度提高了 2.2 倍。Llama-3.1-Nemotron-51B 实现了令人印象深刻的精度与效率权衡,减少了内存带宽,降低了每秒浮点运算次数 (FLOP),并减少了总体内存占用,同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

英伟达通过采用 NAS 技术来优化推理模型,从而解决了这些问题。该团队采用了分块蒸馏过程,即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

英伟达发布 Llama-3.1-Nemotron-51B AI 模型 创新神经架构搜索等技术让单 H100 GPU

2024-09-25 16:21:31 浏览量: 932 作者: 弘乐

近日,英伟达发布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不过创新使用神经架构搜索(NAS)方法,建立了一个高度准确和高效的模型。

Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型,共有 510 亿参数。该 AI 模型主要采用了神经架构搜索(NAS)技术微调,平衡性能和效率,在高工作负荷下,只需要一片 H100 GPU 即可运行,大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

英伟达认为这种方式在保持了出色的精度前提下,显著降低了内存占用、内存带宽和 FLOPs,并证明可以在创建另一个更小、更快的变体来加以推广。

相比较 Meta 的 Llama-3.1-70B 模型,Llama-3.1-Nemotron-51B 在保持了几乎相同的精度情况下,推理速度提高了 2.2 倍。Llama-3.1-Nemotron-51B 实现了令人印象深刻的精度与效率权衡,减少了内存带宽,降低了每秒浮点运算次数 (FLOP),并减少了总体内存占用,同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

英伟达通过采用 NAS 技术来优化推理模型,从而解决了这些问题。该团队采用了分块蒸馏过程,即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号