Meta发布报告：Llama 3训练期间出现419次意外故障

2024-07-29 19:31:45 | 文白不白 | 882

Meta近日发布的一份研究报告显示，其用于训练4050亿参数模型Llama 3的16384个英伟达H100显卡集群在54天内共出现419次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。

报告指出，在为期54天的预训练期间，共发生了466次工作中断，其中47次是计划中断，419次是意外中断。计划内的中断主要由于自动化维护，而意外中断则主要源于硬件问题。具体来说，GPU问题是导致意外中断的主要原因，占58.7%。在419次意外中断中，148次（30.1%）是由各种GPU故障（包括NVLink故障）引起的，而72次（17.2%）则是由GPU的HBM3内存故障引起的。值得注意的是，54天内只有两个CPU发生故障。

在这些意外中断中，41.3%是由多种因素造成的，包括软件错误、网络电缆和网络适配器等。为了提高训练效率，Meta团队开发了一系列工具和优化策略，包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。此外，Meta还关注到了环境因素的影响，如午间温度波动对GPU性能的轻微影响，以及巨量GPU同时运行对数据中心电网的巨大压力。

尽管面临频繁的硬件故障，Meta团队仍保持了90%以上的有效训练时间。随着人工智能模型参数量的不断增加，所需的计算资源也随之扩大。例如，xAI计划中的10万块H100显卡集群预计会面临更高的故障率，给未来的AI训练带来更大的挑战。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。