苹果与英伟达合作推出ReDrafter加速LLM推理 提升AI性能2.7倍

2024-12-19 10:39:58   |   文白不白   |   2112

12月18日,苹果公司发布博文宣布,与英伟达(Nvidia)展开合作,推出了开源的推测解码方法Recurrent Drafter(ReDrafter)。据报道,此次合作为AI技术带来了重要突破,ReDrafter集成到了NVIDIA的TensorRT-LLM推理加速框架中,在NVIDIA GPU上,LLM的推理速度最高提升了2.7倍,极大地降低了用户延迟和计算成本。

随着大语言模型在生产应用中的广泛使用,推理效率的提升对于降低计算成本和减少用户延迟至关重要。苹果的机器学习研究人员指出,ReDrafter结合了RNN草稿模型、波束搜索(beam search)与动态树注意力(dynamic tree attention),使得开源模型每步生成最多3.5个tokens,超越了先前推测性解码技术的性能。

苹果与英伟达的合作使得ReDrafter能够应用于大规模生产环境,特别是在需要高效解码的复杂模型中。基准测试结果显示,在NVIDIA GPU上,集成ReDrafter的TensorRT-LLM框架显著提高了数百亿参数规模的生产模型解码速度,提升幅度达到2.7倍。这不仅优化了用户体验,降低了延迟,还有效减少了GPU使用数量与功耗。

为使ReDrafter能够在生产环境中发挥最佳效果,英伟达为TensorRT-LLM框架添加了新的运算符,并公开了现有运算符,从而增强了对复杂模型和解码方法的适应性。这些优化使得LLM推理不仅更加高效,同时也能适应更为复杂的应用场景,进一步推动了人工智能技术的进步。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

苹果与英伟达合作推出ReDrafter加速LLM推理 提升AI性能2.7倍

2024-12-19 10:39:58 浏览量: 2112 作者: 文白不白

12月18日,苹果公司发布博文宣布,与英伟达(Nvidia)展开合作,推出了开源的推测解码方法Recurrent Drafter(ReDrafter)。据报道,此次合作为AI技术带来了重要突破,ReDrafter集成到了NVIDIA的TensorRT-LLM推理加速框架中,在NVIDIA GPU上,LLM的推理速度最高提升了2.7倍,极大地降低了用户延迟和计算成本。

随着大语言模型在生产应用中的广泛使用,推理效率的提升对于降低计算成本和减少用户延迟至关重要。苹果的机器学习研究人员指出,ReDrafter结合了RNN草稿模型、波束搜索(beam search)与动态树注意力(dynamic tree attention),使得开源模型每步生成最多3.5个tokens,超越了先前推测性解码技术的性能。

苹果与英伟达的合作使得ReDrafter能够应用于大规模生产环境,特别是在需要高效解码的复杂模型中。基准测试结果显示,在NVIDIA GPU上,集成ReDrafter的TensorRT-LLM框架显著提高了数百亿参数规模的生产模型解码速度,提升幅度达到2.7倍。这不仅优化了用户体验,降低了延迟,还有效减少了GPU使用数量与功耗。

为使ReDrafter能够在生产环境中发挥最佳效果,英伟达为TensorRT-LLM框架添加了新的运算符,并公开了现有运算符,从而增强了对复杂模型和解码方法的适应性。这些优化使得LLM推理不仅更加高效,同时也能适应更为复杂的应用场景,进一步推动了人工智能技术的进步。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号