北大清华等团队联合发布 LLaVA-o1 首个具备自发性推理的视觉语言模型
近日,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院和理海大学(Lehigh University)组成的研究团队联合推出了一款创新型视觉语言模型(VLM)——LLaVA-o1。该模型是首个具备自发性(Spontaneous AI)推理能力的视觉语言模型,专注于自主多阶段推理任务,填补了文本和视觉问答模型间的重要空白。
LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型开发,拥有 110 亿参数,并设计了独特的四阶段推理流程:1. 总结(Summary):提取视觉内容的核心信息;2. 描述(Caption):生成详细的文本描述;3. 推理(Reasoning):进行结构化逻辑推理;4. 结论(Conclusion):得出最终答案或解决方案。
该模型通过 LLaVA-o1-100k 数据集进行微调,该数据集融合了视觉问答(VQA)数据与由 GPT-4o 自动生成的结构化推理注释。这种多来源数据增强了模型在复杂任务中的适配能力。 LLaVA-o1 的核心创新是采用了阶段级束搜索(stage-level beam search)推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选择最优答案。这一机制显著提升了模型的推理准确性和效率,使其在复杂视觉问答任务中表现卓越。
相较于基础模型,LLaVA-o1 在多模态推理基准测试中性能提升 8.9%,超越了许多大型闭源竞争对手,尤其在数学和科学相关的视觉问题推理方面表现突出。
LLaVA-o1 的推出为解决传统视觉语言模型的局限性提供了全新思路。其自发性推理能力,模仿动物自发行为的机制,使模型不仅能被动响应任务,还能主动生成复杂多阶段解决方案。这一特性在科研、教育、医疗等领域具有广泛应用前景。