苹果与英伟达合作推出ReDrafter加速LLM推理提升AI性能2.7倍

2024-12-19 10:39:58 | 文白不白 | 2112

12月18日，苹果公司发布博文宣布，与英伟达（Nvidia）展开合作，推出了开源的推测解码方法Recurrent Drafter（ReDrafter）。据报道，此次合作为AI技术带来了重要突破，ReDrafter集成到了NVIDIA的TensorRT-LLM推理加速框架中，在NVIDIA GPU上，LLM的推理速度最高提升了2.7倍，极大地降低了用户延迟和计算成本。

随着大语言模型在生产应用中的广泛使用，推理效率的提升对于降低计算成本和减少用户延迟至关重要。苹果的机器学习研究人员指出，ReDrafter结合了RNN草稿模型、波束搜索（beam search）与动态树注意力（dynamic tree attention），使得开源模型每步生成最多3.5个tokens，超越了先前推测性解码技术的性能。

苹果与英伟达的合作使得ReDrafter能够应用于大规模生产环境，特别是在需要高效解码的复杂模型中。基准测试结果显示，在NVIDIA GPU上，集成ReDrafter的TensorRT-LLM框架显著提高了数百亿参数规模的生产模型解码速度，提升幅度达到2.7倍。这不仅优化了用户体验，降低了延迟，还有效减少了GPU使用数量与功耗。

为使ReDrafter能够在生产环境中发挥最佳效果，英伟达为TensorRT-LLM框架添加了新的运算符，并公开了现有运算符，从而增强了对复杂模型和解码方法的适应性。这些优化使得LLM推理不仅更加高效，同时也能适应更为复杂的应用场景，进一步推动了人工智能技术的进步。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。

苹果与英伟达合作推出ReDrafter加速LLM推理 提升AI性能2.7倍

苹果与英伟达合作推出ReDrafter加速LLM推理提升AI性能2.7倍