阿里通义千问正式推出开源 Qwen2.5-1M 模型及推理框架
1月27日, 阿里通义千问今日宣布,正式推出开源的 Qwen2.5-1M 系列模型及其对应的推理框架。本次发布的模型分别为 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,这也是通义千问首次将其 Qwen 模型的上下文扩展到 100 万个标记(1M tokens)长度,进一步提升了模型在长文本任务中的表现。
为了帮助开发者更高效地部署 Qwen2.5-1M 系列模型,Qwen 团队全面开源了基于 vLLM(大型语言模型推理框架)的推理框架,并结合了稀疏注意力方法,使得该框架在处理 1M 长度的输入时,速度提升了 3 倍到 7 倍。开发者可以利用这一优化框架,在更大规模的数据处理和计算任务中实现更高效的推理性能。
Qwen2.5-1M 系列模型在处理长上下文任务时展现出了卓越的能力。在“海捞针”(Passkey Retrieval)任务中,模型能够准确地从 1M 长度的文档中检索出隐藏信息,仅 Qwen2.5-7B 模型出现了少量错误。对于复杂的长上下文理解任务,Qwen 团队还使用了 RULER、LV-Eval 和 LongbenchChat 测试集,进一步验证了模型的高效性。 Qwen2.5-1M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本,尤其是在处理超过 64K 长度的任务时,表现出色。Qwen2.5-14B-Instruct-1M 模型不仅超越了 Qwen2.5-Turbo,还在多个数据集上稳定超越了 GPT-4o-mini,为长上下文任务提供了开源的高性能选择。
尽管在上下文长度扩展到 1M 后,Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在短序列任务上的表现依然与其 128K 版本相当,确保了基本能力并未受到影响。同时,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在短文本任务中的表现与 GPT-4o-mini 相近,但其上下文长度却是 GPT-4o-mini 的八倍,进一步凸显了 Qwen 系列在处理大规模文本数据时的优势。