OpenAI Sora使用方法详解 一文读懂什么是Sora

2024-02-18 15:12:29   |   嫣然   |   97

OpenAI在2月16日发布了首个文生视频模型Sora,这是一个具有划时代意义的深度学习成果。Sora可以根据文本提示或图像输入,生成长达60秒的高质量视频,展现出对物理世界和情感表达的深刻理解。Sora的视频demo已经在官网上公开,包括不同的场景和主题,如东京街头、农历新年、猫咪早餐等。Sora的核心技术是扩散模型,它可以从噪声视频逐步生成清晰的图像,利用Transformer架构实现强大的扩展性。

目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

另一个Prompt则是,一只猫试图叫醒熟睡的主人,要求吃早餐,主人试图忽略这只猫,但猫尝试了新招,最终主人从枕头下拿出藏起来的零食,让猫自己再多待一会儿。在这个AI生成视频里,猫甚至都学会了踩奶,对主人鼻头的触碰甚至都是轻轻的,接近物理世界里猫的真实反应。OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

随后OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。视频和图像是被称为“补丁”的较小数据单位集合,每个“补丁”都类似于GPT中的一个标记(Token),通过统一的数据表达方式,可以在更广泛的视觉数据上训练和扩散变化,包括不同的时间、分辨率和纵横比。Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好的遵循文本指令。

Sora还借鉴了DALL·E和GPT的研究成果,使用重述提示词技术提高视觉模型的数据标注质量。Sora目前还存在一些不足,例如难以模拟复杂物理原理、理解因果关系、精确描述空间细节和时间变化等。OpenAI表示,他们正在邀请部分用户和创意工作者参与Sora的评估和反馈,希望能够发现并减少潜在的危害或风险,同时推动模型的进步和创新。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

OpenAI Sora使用方法详解 一文读懂什么是Sora

2024-02-18 15:12:29 浏览量: 97 作者: 嫣然

OpenAI在2月16日发布了首个文生视频模型Sora,这是一个具有划时代意义的深度学习成果。Sora可以根据文本提示或图像输入,生成长达60秒的高质量视频,展现出对物理世界和情感表达的深刻理解。Sora的视频demo已经在官网上公开,包括不同的场景和主题,如东京街头、农历新年、猫咪早餐等。Sora的核心技术是扩散模型,它可以从噪声视频逐步生成清晰的图像,利用Transformer架构实现强大的扩展性。

目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

另一个Prompt则是,一只猫试图叫醒熟睡的主人,要求吃早餐,主人试图忽略这只猫,但猫尝试了新招,最终主人从枕头下拿出藏起来的零食,让猫自己再多待一会儿。在这个AI生成视频里,猫甚至都学会了踩奶,对主人鼻头的触碰甚至都是轻轻的,接近物理世界里猫的真实反应。OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

随后OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。视频和图像是被称为“补丁”的较小数据单位集合,每个“补丁”都类似于GPT中的一个标记(Token),通过统一的数据表达方式,可以在更广泛的视觉数据上训练和扩散变化,包括不同的时间、分辨率和纵横比。Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好的遵循文本指令。

Sora还借鉴了DALL·E和GPT的研究成果,使用重述提示词技术提高视觉模型的数据标注质量。Sora目前还存在一些不足,例如难以模拟复杂物理原理、理解因果关系、精确描述空间细节和时间变化等。OpenAI表示,他们正在邀请部分用户和创意工作者参与Sora的评估和反馈,希望能够发现并减少潜在的危害或风险,同时推动模型的进步和创新。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号