Meta发布报告:Llama 3训练期间出现419次意外故障

2024-07-29 19:31:45   |   文白不白   |   882

Meta近日发布的一份研究报告显示,其用于训练4050亿参数模型Llama 3的16384个英伟达H100显卡集群在54天内共出现419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

报告指出,在为期54天的预训练期间,共发生了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断主要由于自动化维护,而意外中断则主要源于硬件问题。具体来说,GPU问题是导致意外中断的主要原因,占58.7%。在419次意外中断中,148次(30.1%)是由各种GPU故障(包括NVLink故障)引起的,而72次(17.2%)则是由GPU的HBM3内存故障引起的。值得注意的是,54天内只有两个CPU发生故障。

在这些意外中断中,41.3%是由多种因素造成的,包括软件错误、网络电缆和网络适配器等。为了提高训练效率,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta还关注到了环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。

尽管面临频繁的硬件故障,Meta团队仍保持了90%以上的有效训练时间。随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。例如,xAI计划中的10万块H100显卡集群预计会面临更高的故障率,给未来的AI训练带来更大的挑战。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

Meta发布报告:Llama 3训练期间出现419次意外故障

2024-07-29 19:31:45 浏览量: 882 作者: 文白不白

Meta近日发布的一份研究报告显示,其用于训练4050亿参数模型Llama 3的16384个英伟达H100显卡集群在54天内共出现419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

报告指出,在为期54天的预训练期间,共发生了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断主要由于自动化维护,而意外中断则主要源于硬件问题。具体来说,GPU问题是导致意外中断的主要原因,占58.7%。在419次意外中断中,148次(30.1%)是由各种GPU故障(包括NVLink故障)引起的,而72次(17.2%)则是由GPU的HBM3内存故障引起的。值得注意的是,54天内只有两个CPU发生故障。

在这些意外中断中,41.3%是由多种因素造成的,包括软件错误、网络电缆和网络适配器等。为了提高训练效率,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta还关注到了环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。

尽管面临频繁的硬件故障,Meta团队仍保持了90%以上的有效训练时间。随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。例如,xAI计划中的10万块H100显卡集群预计会面临更高的故障率,给未来的AI训练带来更大的挑战。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号