Yann LeCun打破沉默:OpenAI sora 并没有理解世界「还得看Meta的」



本文为1162字,建议阅读4分钟
几天前,Meta首席科学家,图灵奖得主Yann LeCun在 在世界政府峰会上谈到了人工智能视频:“We don’t know how to do this”,没想到OpenAI sora 横空出世,Yann LeCun一直对OpenAI的实现AGI技术路线不是很看好,sora 的出现,大家都在等他的反应,在sora发布整整一天后Yann LeCun都是沉默的‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
今天Yann LeCun终于打破沉默,他说大家对他在世界政府峰会上谈到人工智能视频:“We don’t know how to do this” 存在巨大的误解,也是首次表明对OpenAI sora 的看法,顺便推销了一遍Meta的技术方案‍‍‍‍‍‍‍‍
Yann LeCun回应:
让我来澄清一个*巨大*的误解,从提示生成大部分看起来真实的视频*并不*意味着系统真正理解物理世界。生成视频和从世界模型中预测未来是两码事。可信视频的可能性空间非常巨大,生成系统只需输出*一个*样本就算成功。然而,实际视频的合理延续可能性空间*远远较小*,尤其是在给定特定行动情境下。
此外,生成这些延续不仅成本高昂,而且毫无意义。更重要的是,生成*这些延续的抽象表示*会更加实用,因为这些表示会消除场景中与我们可能采取的任何行动无关的细节。这正是 JEPA(联合嵌入预测架构)的核心思想,它*不是生成式*,而是在表示空间中进行预测。我们的研究以及 VICReg、I-JEPA、V-JEPA 以及其他学者的工作表明,联合嵌入架构比生成式架构(如变分自编码器、掩蔽自编码器、去噪自编码器等)产生的视觉输入表示更好。当将这些学习到的表示作为下游任务训练的监督头部的输入时(而不是微调主干),联合嵌入效果更佳。
Yann LeCun主要讨论了生成式模型在理解物理世界和生成视觉内容方面的局限性,以及联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)相较于生成式模型(就差指名道姓sora了,哈哈😄)的优势。他指出以下几点:
1. 仅凭能够根据提示生成逼真的视频,并不能说明系统真正理解了物理世界。生成过程与基于世界模型的因果预测不同,生成式模型只需要从可能性空间中找到一个合理的样本即可,而无需理解和模拟真实世界的因果关系。
2. 继续一段真实视频的合理场景空间相对较小,要生成具有代表性的连续片段是一项更艰巨的任务,特别是在条件化特定动作的情况下。然而,这样做不仅成本高昂,而且没有实际意义。
3. 更有价值的是生成这些连续片段的抽象表示,去除场景中与我们可能采取的任何行动无关的细节信息。这就是JEPA背后的理念所在——它不以生成为目标,而是在表示空间中进行预测。
4. 相较于那些重建像素的生成式架构(如变分自编码器、掩码自编码器、去噪自编码器等),JEPA及其改进版本(如VICReg、I-JEPA、V-JEPA)以及其他相关工作所采用的联合嵌入架构能够产出质量更高、对下游任务更有用的视觉输入表示。
5. 当将学习到的表示作为监督头的输入,应用于下游任务时(无需微调主干网络),联合嵌入架构的表现优于生成式架构。
结语
sora 已经推出来并且已经震惊世界,接下来该Yann LeCun拿出产品了,毕竟行胜于言,你觉得实现Yann LeCun的想法需要花多少钱?
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

酸味好浓👇👇
到顶部