阿里云重磅开源视频生成大模型万相2.1
2月26日,据报道,阿里云于25日深夜宣布,其视频生成大模型万相2.1(Wan)正式开源。此次开源采用Apache 2.0协议,涵盖14B和1.3B两个参数规格的全部推理代码和权重,支持文生视频和图生视频任务。全球开发者可通过Github、HuggingFace、魔搭社区等平台下载体验,标志着阿里云在AI大模型领域的又一重大突破。
万相2.1的14B版本在指令遵循、复杂运动生成、物理建模及文字视频生成等方面表现尤为突出。在权威评测集Vbench中,万相2.1以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外知名模型,稳居全球榜首。这一成绩不仅彰显了万相2.1在视频生成领域的领先地位,也为全球AI开发者提供了强大的技术支撑。
1.3B版本同样表现优异,不仅超越了更大尺寸的开源模型,甚至与部分闭源模型的结果接近。更为重要的是,1.3B版本能够在消费级显卡上运行,仅需8.2GB显存即可生成480P视频,极大降低了开发门槛,适用于二次模型开发和学术研究。
万相2.1通过自研高效VAE和DiT架构,显著增强了时空上下文建模能力,支持无限长1080P视频的高效编解码。值得一提的是,万相2.1首次实现了中文文字视频生成功能,为中文内容创作者提供了全新的工具和可能性。
随着万相2.1的开源,阿里云两大基模(千问和万相)已全部开源,实现了全模态、全尺寸大模型的开源布局。这不仅体现了阿里云对开源生态的坚定支持,也为全球AI开发者提供了更加丰富的技术选择。