Yann LeCun继续怼OpenAI:sora 通过生成像素模拟世界注定失败



本文为1063字,建议阅读3分钟
Yann LeCun和OpenAI彻底干上了,简单来说:
Yann LeCun指出 sora尝试通过生成像素来模拟世界并进行行动的方法效率低下且注定失败,这类似于过去被广泛放弃的“分析综合”思想

Yann LeCun继续解释:‍‍‍‍‍‍
几十年前,在机器学习领域曾有一场关于生成方法与判别方法在分类任务中相对优势的辩论。像Vapnik这样的学习理论家反对生成方法,认为训练生成模型比直接分类(从样本复杂性的角度看)要困难得多。
尽管如此,计算机视觉领域的部分研究者坚持认为识别应该通过从解释性潜变量生成像素来实现。在推理阶段,会通过优化方法(例如使用3D物体模型并寻找重现图像的姿势参数)推断出产生观测到的像素所对应的潜变量配置。这种方法实际效果并不理想,而且计算速度非常慢。
后来,一些人转向了贝叶斯方法,尝试使用贝叶斯推断处理潜变量(如采用变分近似和/或采样技术)。当非参数贝叶斯和潜在狄利克雷分布在文本建模中流行起来时,有人试图将其应用于基于图像的对象识别。但这种尝试以彻底失败告终。
Yann LeCun认为,如果你的目标是训练一个用于识别或规划的世界模型,使用像素级别的预测是一个糟糕的想法。生成模型在文本处理上能够奏效是因为文本是离散的、符号数量有限的,处理预测不确定性相对容易。然而,在高维连续感官输入中处理预测不确定性则几乎是不可行的,这就是为什么针对感官输入的生成模型注定会失败的原因
但是有网友回复Yann LeCun:
OpenAI的Sora模型并非直接预测像素,而是预测视频的压缩嵌入(compressed embedding),然后通过扩散模型(diffusion model)生成像素
对此,Yann LeCun回应说对方存在混淆,并指出Sora实际上被训练来生成像素,其底层架构和方法与争论点无关。
Yann LeCun进一步强调,如果目标是实实在在地生成视频内容,那么像Sora这样的模型没有任何问题。但是,若目的是理解和解析世界如何运作,即构建一个能够有效进行识别、推理或规划的真实世界模型时,仅依赖于像素级生成的方法则是一个不可行的选择,注定会面临挑战和局限性。因为这种方法在处理高维度连续输入以及对世界的认知理解上并不高效,也无法有效应对内在的不确定性问题
结语
有很多人认为Yann LeCun没有在Meta做出相对应的成果,Yann LeCun火力全开:
许多没有在AI或ML领域做出实际贡献的人,甚至有些人在认知偏误(如Dunning-Kruger效应所描述的,即能力欠缺者往往高估自身能力)的影响下,自信满满地批评他的观点,认为他在AI和ML的理解上存在诸多错误、愚蠢、盲目、无知、误导性、嫉妒、偏见、过时等问题(Yann LeCun是深度学习领域的先驱之一、卷积神经网络(CNN)的发明者以及Meta AI的首席人工智能科学家,图灵奖获得者)
你怎么看?OpenAI手里的武器可能不止sora,接下来Yann LeCun会怎么怼?‍‍‍‍‍‍‍‍‍‍‍‍‍
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

Yann怼怼,酸?👇👇
到顶部