苹果与英伟达合作推出ReDrafter加速LLM推理 提升AI性能2.7倍
12月18日,苹果公司发布博文宣布,与英伟达(Nvidia)展开合作,推出了开源的推测解码方法Recurrent Drafter(ReDrafter)。据报道,此次合作为AI技术带来了重要突破,ReDrafter集成到了NVIDIA的TensorRT-LLM推理加速框架中,在NVIDIA GPU上,LLM的推理速度最高提升了2.7倍,极大地降低了用户延迟和计算成本。
随着大语言模型在生产应用中的广泛使用,推理效率的提升对于降低计算成本和减少用户延迟至关重要。苹果的机器学习研究人员指出,ReDrafter结合了RNN草稿模型、波束搜索(beam search)与动态树注意力(dynamic tree attention),使得开源模型每步生成最多3.5个tokens,超越了先前推测性解码技术的性能。
苹果与英伟达的合作使得ReDrafter能够应用于大规模生产环境,特别是在需要高效解码的复杂模型中。基准测试结果显示,在NVIDIA GPU上,集成ReDrafter的TensorRT-LLM框架显著提高了数百亿参数规模的生产模型解码速度,提升幅度达到2.7倍。这不仅优化了用户体验,降低了延迟,还有效减少了GPU使用数量与功耗。
为使ReDrafter能够在生产环境中发挥最佳效果,英伟达为TensorRT-LLM框架添加了新的运算符,并公开了现有运算符,从而增强了对复杂模型和解码方法的适应性。这些优化使得LLM推理不仅更加高效,同时也能适应更为复杂的应用场景,进一步推动了人工智能技术的进步。