北大清华等团队联合发布 LLaVA-o1 首个具备自发性推理的视觉语言模型

2024-11-19 16:21:33   |   微观猎人   |   2159

近日,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院和理海大学(Lehigh University)组成的研究团队联合推出了一款创新型视觉语言模型(VLM)——LLaVA-o1。该模型是首个具备自发性(Spontaneous AI)推理能力的视觉语言模型,专注于自主多阶段推理任务,填补了文本和视觉问答模型间的重要空白。  

LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型开发,拥有 110 亿参数,并设计了独特的四阶段推理流程:1. 总结(Summary):提取视觉内容的核心信息;2. 描述(Caption):生成详细的文本描述;3. 推理(Reasoning):进行结构化逻辑推理;4. 结论(Conclusion):得出最终答案或解决方案。  

该模型通过 LLaVA-o1-100k 数据集进行微调,该数据集融合了视觉问答(VQA)数据与由 GPT-4o 自动生成的结构化推理注释。这种多来源数据增强了模型在复杂任务中的适配能力。  LLaVA-o1 的核心创新是采用了阶段级束搜索(stage-level beam search)推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选择最优答案。这一机制显著提升了模型的推理准确性和效率,使其在复杂视觉问答任务中表现卓越。  

相较于基础模型,LLaVA-o1 在多模态推理基准测试中性能提升 8.9%,超越了许多大型闭源竞争对手,尤其在数学和科学相关的视觉问题推理方面表现突出。  

LLaVA-o1 的推出为解决传统视觉语言模型的局限性提供了全新思路。其自发性推理能力,模仿动物自发行为的机制,使模型不仅能被动响应任务,还能主动生成复杂多阶段解决方案。这一特性在科研、教育、医疗等领域具有广泛应用前景。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

北大清华等团队联合发布 LLaVA-o1 首个具备自发性推理的视觉语言模型

2024-11-19 16:21:33 浏览量: 2159 作者: 微观猎人

近日,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院和理海大学(Lehigh University)组成的研究团队联合推出了一款创新型视觉语言模型(VLM)——LLaVA-o1。该模型是首个具备自发性(Spontaneous AI)推理能力的视觉语言模型,专注于自主多阶段推理任务,填补了文本和视觉问答模型间的重要空白。  

LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型开发,拥有 110 亿参数,并设计了独特的四阶段推理流程:1. 总结(Summary):提取视觉内容的核心信息;2. 描述(Caption):生成详细的文本描述;3. 推理(Reasoning):进行结构化逻辑推理;4. 结论(Conclusion):得出最终答案或解决方案。  

该模型通过 LLaVA-o1-100k 数据集进行微调,该数据集融合了视觉问答(VQA)数据与由 GPT-4o 自动生成的结构化推理注释。这种多来源数据增强了模型在复杂任务中的适配能力。  LLaVA-o1 的核心创新是采用了阶段级束搜索(stage-level beam search)推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选择最优答案。这一机制显著提升了模型的推理准确性和效率,使其在复杂视觉问答任务中表现卓越。  

相较于基础模型,LLaVA-o1 在多模态推理基准测试中性能提升 8.9%,超越了许多大型闭源竞争对手,尤其在数学和科学相关的视觉问题推理方面表现突出。  

LLaVA-o1 的推出为解决传统视觉语言模型的局限性提供了全新思路。其自发性推理能力,模仿动物自发行为的机制,使模型不仅能被动响应任务,还能主动生成复杂多阶段解决方案。这一特性在科研、教育、医疗等领域具有广泛应用前景。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号