北大清华等团队联合发布 LLaVA-o1 首个具备自发性推理的视觉语言模型

2024-11-19 16:21:33 | 微观猎人 | 2161

近日，由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院和理海大学（Lehigh University）组成的研究团队联合推出了一款创新型视觉语言模型（VLM）——LLaVA-o1。该模型是首个具备自发性（Spontaneous AI）推理能力的视觉语言模型，专注于自主多阶段推理任务，填补了文本和视觉问答模型间的重要空白。

LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型开发，拥有 110 亿参数，并设计了独特的四阶段推理流程：1. 总结（Summary）：提取视觉内容的核心信息；2. 描述（Caption）：生成详细的文本描述；3. 推理（Reasoning）：进行结构化逻辑推理；4. 结论（Conclusion）：得出最终答案或解决方案。

该模型通过 LLaVA-o1-100k 数据集进行微调，该数据集融合了视觉问答（VQA）数据与由 GPT-4o 自动生成的结构化推理注释。这种多来源数据增强了模型在复杂任务中的适配能力。 LLaVA-o1 的核心创新是采用了阶段级束搜索（stage-level beam search）推理时间 Scaling 技术，能够在每个推理阶段生成多个候选答案，并选择最优答案。这一机制显著提升了模型的推理准确性和效率，使其在复杂视觉问答任务中表现卓越。

相较于基础模型，LLaVA-o1 在多模态推理基准测试中性能提升 8.9%，超越了许多大型闭源竞争对手，尤其在数学和科学相关的视觉问题推理方面表现突出。

LLaVA-o1 的推出为解决传统视觉语言模型的局限性提供了全新思路。其自发性推理能力，模仿动物自发行为的机制，使模型不仅能被动响应任务，还能主动生成复杂多阶段解决方案。这一特性在科研、教育、医疗等领域具有广泛应用前景。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。