豆包团队开源首款免语言模型依赖的视频生成模型“VideoWorld”
2月10日,据报道,豆包大模型团队联合北京交通大学和中国科学技术大学共同开发的创新视频生成实验模型“VideoWorld”今天正式开源。在不依赖语言模型的前提下,达到了认知世界的能力,成为业内首个无需语言依赖即可理解和生成视频的系统。
据介绍,与目前主流的多模态模型,如 Sora、DALL-E、Midjourney 等不同,VideoWorld实现了无需依赖语言模型即可认知世界的创新突破。现有的多模态模型大多数依赖语言或标签数据来学习知识,但它们往往无法全面捕捉到真实世界的复杂信息,例如折纸、打领结等精细操作的知识,这些任务难以用简单的语言描述清楚。
VideoWorld通过去除语言模型的依赖,实现了一个统一的执行理解与推理任务的能力,使得模型可以更加直观、精准地从视觉信号中提取世界信息。这一创新突破让其在执行复杂任务时更加灵活、高效,尤其在视频生成领域展现出强大的能力。
VideoWorld的核心技术之一是基于一种潜在动态模型,该模型能够高效地压缩视频帧之间的变化信息,显著提高知识学习的效率和效果。不同于传统的需要强化学习机制或奖励函数的搜索过程,VideoWorld通过独特的技术架构,能够自主学习视频内容和动态变化,在无需额外干预的情况下,完成复杂任务的训练和执行。
在性能方面,VideoWorld取得了令人瞩目的成就。在不依赖任何强化学习机制的前提下,模型达到了专业5段围棋水平,证明其具备极高的战略决策和认知能力。此外,VideoWorld还被应用于多种机器人任务场景,能够在多种环境下执行复杂任务,进一步验证了其在多领域的应用潜力。