清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

2024-04-29 12:20#1 标记1

Sora席卷世界，也掀起了全球竞逐AI视频生成的热潮。
就在今天，国内又有一支短片引发关注。
视频来自生数科技联合清华大学最新发布的视频大模型「Vidu」。
从官宣消息看，「Vidu」支持一键生成长达16秒、分辨率达1080p的高清视频内容。
更令人惊喜的是，「Vidu」画面效果非常接近Sora，在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出色，而且还能虚构出真实世界不存在的超现实主义画面，这是当前的视频生成模型难以实现的。
并且实现这般效果，背后团队只用了两个月的时间。
全面对标Sora
3月中旬，生数科技联合创始人兼CEO唐家渝就曾公开表示：“今年内一定能达到Sora目前版本的效果。”
现在，在生成时长、时空一致性、镜头语言、物理模拟等方面，确实能看到「Vidu」在短时间内已经逼近Sora水平。
长度突破10秒大关
「Vidu」生成的视频不再是持续几秒的「GIF」，而是达到了16秒，并且做到了画面连续流畅，且有细节、逻辑连贯。
尽管都是运动画面，但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

△提示：一艘木头玩具船在地毯上航行
给视频注入「镜头语言」
在视频制作中有个非常重要的概念——镜头语言。通过不同的镜头选择、角度、运动和组合，来表达故事情节、揭示角色心理、营造氛围以及引导观众情感。
现有AI生成的视频，能够明显地感觉到镜头语言的单调，镜头的运动局限于轻微幅度的推、拉、移等简单镜头。深究背后的原因看，因为现有的视频内容生成大多是先通过生成单帧画面，再做连续的前后帧预测，但主流的技术路径，很难做到长时序的连贯预测，只能做到小幅的动态预测。
「Vidu」则突破了这些局限。在一个「海边小屋」为主题的片段中，我们可以看到，「Vidu」一次生成的一段片段中涉及多个镜头，画面既有小屋的近景特写，也有望向海面的远眺，整体看下来有种从屋内到走廊再到栏杆边赏景的叙事感。

包括从短片中的多个片段能看到，「Vidu」能直接生成转场、追焦、长镜头等效果，包括能够生成影视级的镜头画面，给视频注入镜头语言，提升画面的整体叙事感。

保持时间和空间的一致性
视频画面的连贯和流畅性至关重要，这背后其实是人物和场景的时空一致性，比如人物在空间中的运动始终保持一致，场景也不能在没有任何转场的情况下突变。而这一点 AI 很难实现，尤其时长一长，AI生成的视频将出现叙事断裂、视觉不连贯、逻辑错误等问题，这些问题会严重影响视频的真实感和观赏性。
「Vidu」在一定程度上克服了这些问题。从它生成的一段“带珍珠耳环的猫”的视频中可以看到，随着镜头的移动，作为画面主体的猫在3D空间下一直保持着表情、服饰的一致，视频整体上连贯、流畅，保持了很好的时间、空间一致性。
△提示：这是一只蓝眼睛的橙色猫的肖像，慢慢地旋转，灵感来自维米尔的《戴珍珠耳环的少女》，画面上戴着珍珠耳环，棕色头发像荷兰帽一样，黑色背景，工作室灯光。模拟真实物理世界
Sora令人惊艳的一大特点，就是能够模拟真实物理世界的运动，例如物体的移动和相互作用。其中Sora有发布的一个经典案例，“一辆老式SUV行驶在山坡上”的画面，非常好地模拟了轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化：
在同样的提示词下，「Vidu」与Sora生成效果高度接近，灰尘、光影等细节与人类在真实物理世界中的体验非常接近。

△提示：镜头跟随一辆带有黑色车顶行李架的白色老式SUV，它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶，轮胎扬起灰尘，阳光照射在SUV上，给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方，看不到其他汽车或车辆。道路两旁都是红杉树，零星散落着一片片绿意。从后面看，这辆车轻松地沿着曲线行驶，看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉，上面是清澈的蓝天和缕缕云彩。
当然在“带有黑色车顶行李架”的局部细节上，「Vidu」没能生成出来，但也瑕不掩瑜，整体效果已高度接近真实世界。
丰富的想象力
与实景拍摄相比，用AI生成视频有一个很大的优势——它可以生成现实世界中不存在的画面。以往，这些画面往往要花费很大的人力、物力去搭建或做成特效，但是AI短时间就可以自动生成了。
比如在下面这个场景中，「帆船」、「海浪」罕见地出现在了画室里，而且海浪与帆船的交互动态非常自然。
包括短片中的“鱼缸女孩”的片段，奇幻但又具有一定的合理感，这种能够虚构真实世界不存在的画面，对于创作超现实主义内容非常有帮助，不仅可以激发创作者的灵感，提供新颖的视觉体验，还能拓宽艺术表达的边界，带来更加丰富和多元化的内容形式。

理解中国元素
除了以上四方面的特点外，我们从「Vidu」放出的短片中还看到了一些不一样的惊喜，「Vidu」能够生成特有中国元素的画面，比如熊猫、龙、宫殿场景等。

△提示：在宁静的湖边，一只熊猫热切地弹着吉他，让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景，以生动的全景镜头捕捉到，将现实主义与大熊猫活泼的精神融为一体，创造出活力与平静的和谐融合。
两个月快速突破的“秘籍”
此前，唐家渝给出的赶上Sora的时间，是“很难说是三个月还是半年”。
但如今仅仅过去一个多月时间，团队就实现了突破，而且据透露，3月份公司内部就实现了8秒的视频生成，紧接着4月份突破了16秒生成。短短两个月时间，背后是如何做到的？
一是选对了技术路线
「Vidu」底层基于完全自研的U-ViT架构，该架构由团队在2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion和Transformer融合的架构。

Transformer架构被广泛应用于大语言模型，该架构的优势在于scale特性，参数量越大，效果越好，而Diffusion被常用于传统视觉任务（图像和视频生成）中。
融合架构就是在Diffusion Model（扩散模型）中，用Transformer替换常用的U-Net卷积网络，将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合，能在视觉任务下展现出卓越的涌现能力。
不同于市面上之前的一些“类Sora”模型，长视频的实现其实是通过插帧的方式，在视频的每两帧画面中增加一帧或多帧来提升视频的长度。这种方法就需要对视频进行逐帧处理，通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。
另外，还有一些视频工具看似实现了长视频，实际打了“擦边球”。底层集合了许多其他模型工作，比如先基于Stable Diffusion、Midjourney生成单张画面，再图生4s短视频，再做拼接。表面看时长是长了，但本质还是“短视频生成”的内核。
但「Vidu」基于纯自研的融合架构，底层是“一步到位”，不涉及中间的插帧和拼接等多步骤的处理，文本到视频的转换是直接且连续的。直观上，我们可以看到“一镜到底”的丝滑感，视频从头到尾连续生成，没有插帧痕迹。
二是扎实的工程化基础
早在2023年3月，基于U-ViT架构，团队在开源的大规模图文数据集LAION-5B上就训练了10亿参数量的多模态模型——UniDiffuser，并将其开源。
UniDiffuser主要擅长图文任务，能支持图文模态间的任意生成和转换。UniDiffuser的实现有一项重要的价值——首次验证了融合架构在大规模训练任务中的可扩展性（Scaling Law），相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的，同样是图文模型，UniDiffuser比最近才切换到DiT架构的Stable Diffusion 3领先了一年。
这些在图文任务中积累工程经验为视频模型的研发打下了基础。因为视频本质上是图像的流，相当于是图像在时间轴上做了一个扩增。因此，在图文任务上取得的成果往往能够在视频任务中得到复用。Sora就是这么做的：它采用了DALL·E 3的重标注技术，通过为视觉训练数据生成详细的描述，使模型能够更加准确地遵循用户的文本指令生成视频。
据悉，「Vidu」也复用了生数科技在图文任务的很多经验，包括训练加速、并行化训练、低显存训练等等，从而快速跑通了训练流程。据悉，他们通过视频数据压缩技术降低输入数据的序列维度，同时采用自研的分布式训练框架，在保证计算精度的同时，通信效率提升1倍，显存开销降低80%，训练速度累计提升40倍。
从图任务的统一到融合视频能力，「Vidu」可被视为一款通用视觉模型，能够支持生成更加多样化、更长时长的视频内容，官方也透露，「Vidu」目前并在加速迭代提升，面向未来，「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。
One More Thing
最后，再聊下「Vidu」背后的团队——生数科技，这是一支清华背景的精干团队，致力于专注于图像、3D、视频等多模态大模型领域。
生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任；CEO唐家渝本硕就读于清华大学计算机系，是THUNLP组成员；CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员，长期关注扩散模型领域研究，U-ViT和UniDiffuser两项工作均是由他主导完成的。
团队从事生成式人工智能和贝叶斯机器学习的研究已有20余年，在深度生成模型突破的早期就开展了深入研究。在扩散模型方面，团队于国内率先开启了该方向的研究，成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
团队于ICML、NeurIPS、ICLR等人工智能顶会发表多模态领域相关论文近30篇，其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果，获得ICLR杰出论文奖，并被OpenAI、苹果、Stability.ai等国外前沿机构采用，应用于DALL·E 2、Stable Diffusion等明星项目中。
自2023年成立以来，团队已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可，完成数亿元融资。据悉，生数科技是目前国内在多模态大模型赛道估值最高的创业团队。
*本文系量子位获授权刊载，观点仅为作者所有。
— 完 —
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版！22个国内外“碳中和”相关报告合集！
【工业机器人】全球工业机器人详细产业链梳理！
【智能制造】智能制造50大产业链全景图
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展（上）
【工业技术】航空制造推动新概念机器人发展（下）
【新基建+人工智能生态】全网最火“新基建”生态图谱—人工智能篇（含40个细分领域厂商）
【AI】一文读懂人脸识别技术
【AI】解析 | 人工智能发展及技术架构
【报告】中国人工智能厂商全景报告（附PDF下载）
【AI】（收藏）从 A-Z 全面盘点人工智能专业术语梳理！
【AI】计算机视觉入门大全：基础概念、运行原理、应用案例详解
【AI】一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
【智能仓储】一文带你彻底搞懂智能仓储！
【深度学习】12张高清思维导图，总结深度学习
【神经网络】给初学者们讲解人工神经网络（ANN）
人工智能的基础--知识分类
【AI产业链】120图勾勒全球AI产业完整图谱!
【AI】一文读懂人工智能产业链
【AI】中国人脸识别产业链全景图！
【AI】史上最全的人工智能（AI）产业链地图！
【芯片】国产芯片大全：70个细分领域代表企业
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--（综合）
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一（上）
朱松纯 | 人工智能的现状、任务、构架与统一（中）
朱松纯 | 人工智能的现状、任务、构架与统一（下）
【AI】美国国家人工智能研发战略规划2019
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告（附PDF下载）
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
荐：
【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕
【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！
【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明
免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）
编辑：Zero