OpenAI sora 创世纪背后:文本生成视频的GPT3时刻,涌现模拟能力



本文为1597字,建议阅读4分钟
有人说,OpenAI sora一经出现,现实世界不存在了,这是sora创世纪的一天,接下来AI将彻底重构虚拟世界,接着彻底重构物理世界,已经很多年没有出现一种像AI一样具有疯狂的掠夺属性的技术了,ChatGPT,sora这些仅仅是开胃菜‍‍‍‍‍‍‍
英伟达AI领导者Jim Fan 对 Sora 的最新点评: 
jimfan认为,‍
我注意到了一些直言不讳的对 Sora 反对声音:“Sora 并没有在学习物理,它仅仅是在二维空间里对像素进行操作。”
对于这种把问题简单化的看法我必须表示不同意见。这种说法就像是在说“GPT-4 并不学习编码,只是在随机选择字符串而已”。实际上,Transformer 的工作只是在操作一连串的整数(即 Token ID)。神经网络的工作,也仅仅是在处理浮动数字。这种观点显然是片面的。
当我们大规模扩展从文本到视频的训练时,Sora 所展现的软物理仿真实际上是一种随着规模扩大而出现的特性。
GPT-4 必须学会某种内部的语法、语义和数据结构,才能生成可执行的 Python 代码。它并不是直接存储 Python 的语法结构。
类似地,Sora 必须学习一些隐式的文本到 3D、3D 变换、光线追踪渲染和物理规则,才有可能精确地模拟视频像素。它必须理解游戏引擎的概念,才有可能生成视频。
如果我们不考虑交互的话,UE5 就是一个(极其复杂的)生成视频像素的过程。同样,Sora 也是一个过程,它通过端到端的 Transformer 来生成视频像素。这两者在抽象层次上是相同的。
不同之处在于,UE5 是通过手工制作和精确设计的,而 Sora 则是通过数据学习和直观感受来实现的。
Sora 会取代游戏引擎开发者吗?绝对不会。它对物理的理解虽然是一种新的尝试,但仍然不够成熟,远远达不到完美。
Sora 代表了文本生成视频的 GPT-3 时刻。回想 2020 年,尽管 GPT-3 模型存在不少问题,需要大量的提示工程,但它首次引人瞩目地展示了在上下文中学习这一涌现性质。 
从OpenAI发布的sora的技术报告来看
Sora最大的特点是用Transformer生成视频,其中的核心技术就是Transformer+Diffusion

所谓Transformer+Diffusion,就是把Transformer对序列的处理能力(包括时间序列)将一张图片分成无数个小的patch,组成新的token,作为Decoder的block放到Diffusion框架中 

这样就是可以一帧一帧的生成图片,一共生成30*60 = 1800张照片即可。时长一分钟
其实都可以生成低分辨率的视频,然后通过upscale的模型(另外一个autoencoder)把分辨率提上去。 
OpenAI的特点,在于数据,对齐,和训练时间,但是OpenAI没有给出训练细节,这只是我们从OpenAI sora 技术报告中得到粗略印象
sora涌现模拟能力
在大规模训练下,sora视频模型展示出了一系列引人注目的涌现能力。这些功能让 Sora 有能力在一定程度上模拟现实世界中的人、动物和环境。这种能力的涌现,并不需要对三维空间、物体等有任何特定的预设偏好 —— 它们纯粹是由数据规模驱动的结果
三维空间的连贯性。 Sora 能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间中保持连贯移动。
远距离连续性与物体持久性。 在生成长视频时,保持时间上的连续性一直是个挑战。我们观察到,Sora 通常能够有效处理短距离和长距离的依赖关系。比如,即使人物、动物或物体被遮挡或移出画面,我们的模型也能保持它们的连续存在。同样,它能在同一视频样本中多次展示同一角色,确保其外观贯穿始终。
与世界的互动。 Sora 有时能模拟出简单地影响世界状态的行为。例如,画家在画布上留下的笔触随时间持久存在,或者某人吃汉堡留下的咬痕。
数字世界的模拟。 Sora 还能模拟数字化过程,如视频游戏。它能在控制 Minecraft 游戏角色进行基本操作的同时,高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示,即可激发这些能力的展现。
这些功能展示了,不断扩大视频模型的规模,是发展出能高度模拟物理及数字世界——包括其中的物体、动物和人——的高级模拟器的一条有前景的路径
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

sora是颠覆性的👇👇
到顶部