Meta发布报告:Llama 3训练期间出现419次意外故障
Meta近日发布的一份研究报告显示,其用于训练4050亿参数模型Llama 3的16384个英伟达H100显卡集群在54天内共出现419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。
报告指出,在为期54天的预训练期间,共发生了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断主要由于自动化维护,而意外中断则主要源于硬件问题。具体来说,GPU问题是导致意外中断的主要原因,占58.7%。在419次意外中断中,148次(30.1%)是由各种GPU故障(包括NVLink故障)引起的,而72次(17.2%)则是由GPU的HBM3内存故障引起的。值得注意的是,54天内只有两个CPU发生故障。
在这些意外中断中,41.3%是由多种因素造成的,包括软件错误、网络电缆和网络适配器等。为了提高训练效率,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta还关注到了环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。
尽管面临频繁的硬件故障,Meta团队仍保持了90%以上的有效训练时间。随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。例如,xAI计划中的10万块H100显卡集群预计会面临更高的故障率,给未来的AI训练带来更大的挑战。