视频引爆AI革命:【英伟达】高级AI科学家Jim Fan的2024独家预测



本文为778字,建议阅读2分钟‍
现任英伟达高级研究科学家兼人工智能代理负责人jim fan,对2024做了几个预测,前两天他预测2024将是机器人崛起的元年,感兴趣的请看英伟达:2024年将是机器人全面崛起反击人类的一年‍‍‍
今天,在2023年即将结束跨入2024年时,他又做了一个预测:2024将是AI视频元年,以下是完整预测:‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
jim fan,
2024年将是视频的元年。虽然机器人和具象代理(AI代理系统能够通过感知和互动来直接操作环境,而不仅仅是通过符号表示或模拟来解决问题)尚处于起步阶段,我认为视频人工智能将在接下来的12个月内迎来突破。这一切涉及两个方面:I/O
"I":视频输入。GPT-4V对视频的理解仍然相当原始,将其视为一系列离散图像。当然,这在某种程度上是有效的,但效率并不高。视频是一个时空像素体积。它的维度极高,但又充满冗余。
在ECCV 2020中,我提出了一种名为RubiksNet的方法,它简单地沿着3个轴移动视频像素,就像沿着魔方一样,然后在它们之间应用MLPs。没有3D卷积,没有transformers,有点类似于MLP-Mixer的精神。出奇地运行效果好,并且通过我自定义的CUDA内核运行速度很快。
transformers是你所需要的全部吗?
如果是,最聪明的减少信息冗余的方法是什么?
学习目标应该是什么?
下一帧预测与下一个词预测有明显的类比,但是否是最优的?
如何将其与语言交叉?
如何引导视频学习以应用于机器人和具象人工智能?
社区中对这些问题尚无共识。
"O":视频输出。在2023年,我们已经看到了一波文本到视频合成的浪潮:WALT(Google),EmuVideo(Meta),Align Your Latents(NVIDIA),@pika_labs(之前我的文章介绍过Pika:华人创办,OpenAI创始人点赞,文字生成视频新高度,颠覆视频创作?)等等,数不胜数。然而,大多数生成的片段仍然非常短。我把它们看作是视频人工智能的"系统1"——无意识的、局部的像素移动。
结语
到2024年,我相信我们将看到具有高分辨率和长时间连贯性的视频生成。这将需要更多的"思考",即系统2的推理和长期规划(对应System 1负责无意识的感觉运动控制(LLMs))。
离人人都是导演,一个人就是一个电影公司还有多远?
想去感受AI创作视频可以这里https://pika.art/

⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

你好2024👇👇
到顶部