腾讯混元大模型上线并开源文生视频能力支持中英文双语输入

2024-12-03 17:35:59 | 棠糖 | 2720

近日，腾讯宣布推出其最新的混元大模型，并首次开源其文生视频能力。这款大模型拥有130亿个参数，支持中英文双语输入，能够生成高质量、超写实的高质量视频。官方表示，这项新技术为视频生成领域带来了革命性的进展，能够生成不易变形、符合物理规律的画面，特别在镜面反射等场景中表现突出。

腾讯混元大模型采用了创新的DiT（Dynamic Inference Transformer）架构，配合新一代文本编码器，大幅提升了模型对语义的理解和遵循能力。该架构使得视频生成过程中的多个主体描绘更加精确，从而实现更加细致的指令执行和画面呈现。

官方展示的视频生成效果展现了其强大的能力。例如，在一个海浪冲浪的场景中，混元大模型能够精准捕捉水花飞溅的瞬间，并呈现出完美的光影与反射。此外，在镜面或玻璃反射的场景中，模型能确保画面中的动作与外部环境完全同步，光影反射也几乎完全符合物理规律。

腾讯表示，本次混元大模型的开源内容包括完整的模型权重、推理代码和模型算法，供企业和个人开发者自由使用，并可以在此基础上开发相关的生态插件。模型的开源为广大开发者提供了一个强大的创作工具，预计将大幅推动文生视频技术在各行各业中的应用。

此外，腾讯还在其腾讯元宝 App中上线了“AI 应用”功能，用户可以在其中选择“AI 视频”，并申请试用这项新技术。这使得更多用户能够亲自体验腾讯混元大模型在视频生成方面的强大能力。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。

腾讯混元大模型上线并开源文生视频能力 支持中英文双语输入

腾讯混元大模型上线并开源文生视频能力支持中英文双语输入