腾讯混元大模型上线并开源文生视频能力 支持中英文双语输入
近日,腾讯宣布推出其最新的混元大模型,并首次开源其文生视频能力。这款大模型拥有130亿个参数,支持中英文双语输入,能够生成高质量、超写实的高质量视频。官方表示,这项新技术为视频生成领域带来了革命性的进展,能够生成不易变形、符合物理规律的画面,特别在镜面反射等场景中表现突出。
腾讯混元大模型采用了创新的DiT(Dynamic Inference Transformer)架构,配合新一代文本编码器,大幅提升了模型对语义的理解和遵循能力。该架构使得视频生成过程中的多个主体描绘更加精确,从而实现更加细致的指令执行和画面呈现。
官方展示的视频生成效果展现了其强大的能力。例如,在一个海浪冲浪的场景中,混元大模型能够精准捕捉水花飞溅的瞬间,并呈现出完美的光影与反射。此外,在镜面或玻璃反射的场景中,模型能确保画面中的动作与外部环境完全同步,光影反射也几乎完全符合物理规律。
腾讯表示,本次混元大模型的开源内容包括完整的模型权重、推理代码和模型算法,供企业和个人开发者自由使用,并可以在此基础上开发相关的生态插件。模型的开源为广大开发者提供了一个强大的创作工具,预计将大幅推动文生视频技术在各行各业中的应用。
此外,腾讯还在其腾讯元宝 App中上线了“AI 应用”功能,用户可以在其中选择“AI 视频”,并申请试用这项新技术。这使得更多用户能够亲自体验腾讯混元大模型在视频生成方面的强大能力。