仅用一段文字,自动生成60秒逼真影片,人工智能领头羊OpenAI又放大招,或将颠覆影视行业


OpenAI最近展示了一款新工具,它能仅凭一段文字即刻生成效果惊艳的逼真视频。
上图即是使用不到100文字描述生成的视频,提示词:电影预告片,讲述了 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明
这款被命名为Sora的工具,源自日语中的“天空”,它标志着这家人工智能公司的又一次飞跃,与此同时,谷歌、Meta和Runway ML也在研发类似的模型。
通过Sora,用户可以仅仅输入一段文字,就能命令Sora创建长达一分钟的逼真视频。这项文本到视频技术的新进展标志着人工智能竞争中又一重要里程碑。
Sora旨在理解并将文字指令转换为精细的视频场景。它能够生成具有多个角色、特定类型动作以及主题和背景的精确细节的复杂场景。不仅仅是复制请求的内容,Sora还理解这些元素在物理世界中是如何存在的。
Sora的一个令人印象深刻的特点是它能从一张静态图片创建视频,这是视频生成技术的显着进步。此外,这个模型可以填补现有视频中缺失的帧或延长其持续时间,增强了视频编辑过程的效率和创造性。
Sora的模型理解物体在物理世界中是如何存在的,并能准确解读道具,生成表现出丰富情感的引人入胜的角色。
尽管Sora展现了惊人的能力,OpenAI承认在准确模拟复杂场景的物理特性方面可能面临挑战。尽管如此,展示的结果无疑令人印象深刻,显示了Sora可能对电影行业和数字内容创作产生的革命性影响。
在他们网站发布的示例视频中,OpenAI展示了Sora生成的若干“没有修改”的视频。
其中一个片段(下方视频)精确再现了一个现实感十足的女性在雨中漫步东京街头。
该视频的提示词:一位时尚女性走在东京的街道上,街道上到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色皮包,戴着太阳镜,涂着红色唇膏。
上面视频生成时使用的提示是:“几只巨大的毛茸茸的猛犸象脚踏雪地缓缓前行”,画面中绝种动物在山脉附近行走,掀起粉末状的雪花。
上放视频是另一个由Sora生成的视频,提示词:“画中的怪物睁大眼睛、张开嘴巴注视着火焰,充满了惊奇和好奇。它的姿势和表情传达出一种天真和俏皮的感觉,仿佛它是第一次探索周围的世界。”。
这也是由sora生成的视频,提示词:渲染华丽的珊瑚礁纸艺世界,到处都是色彩斑斓的鱼类和海洋生物
生成该视频使用的提示词:美丽的东京雪景熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几位正在享受美丽雪景和在附近摊位购物的人们。绚丽的樱花花瓣伴随着雪花在风中飞舞
关于OpenAI的Sora——一个文本到视频AI模型的常见问题解答:
问:什么是Sora?
答:Sora是OpenAI公司开发的一种尖端视频生成模型,OpenAI是人工智能领域的杰出参与者。
问:Sora能做什么?
答:Sora旨在将文字指令转换为精细的视频场景。它能够生成具有多个角色、特定类型动作以及主题和背景的精确细节的复杂场景。Sora还可以从单张静态图片创建视频,并填补现有视频中缺失的帧。
问:Sora如何有利于视频编辑过程?
答:Sora生成视频和填补缺失帧的能力提高了视频编辑过程的效率和创造性。
问:Sora可能面临哪些挑战?
答:OpenAI承认Sora在准确模拟复杂场景的物理特性方面可能面临挑战。
问:OpenAI是如何寻求反馈的?
答:OpenAI正在积极从用户那里收集反馈,包括视觉艺术家、设计师和电影制作人,以帮助完善和改进Sora。
问:有哪些与Sora类似的AI模型?
答:Meta的Emu是另一个AI模型,它可以根据文本提示生成图像和视频。
问:Sora为内容创作者和消费者带来了什么可能性?
答:Sora在文本到视频AI模型方面的进步表明,AI生成的Reels和短视频的未来正在迅速临近,为内容创作者和消费者带来了新的可能性和挑战。
定义:
AI:人工智能,即在机器中模拟人类智能以执行通常需要人类智能的任务。
提示词:向AI模型提供的书面指令或输入。
文本到视频技术:将文字指令转换成视频场景的能力。
视频编辑:操纵和重新排列视频片段以创建最终编辑视频的过程。
到顶部