本文为1057字,建议阅读3分钟
都是sora 引发的,Yann LeCun受刺激并被各种他认为不怎么懂AI网友怼后,连续发文,今天的主题是关于“世界模型”的定义,以及与各种网友的讨论
Yann LeCun:关于什么是世界模型,很多人都搞不清楚。
以下是我的定义:
给定:
- 一个观测值 x(t)
- 对世界状态的先前估计 s(t)
- 一个行动建议 a(t)
- 一个潜在变量建议 z(t)
世界模型计算:
- 表示:h(t) = Enc(x(t))
- 预测:s(t+1) = Pred( h(t), s(t), z(t), a(t) ) 其中 - Enc() 是一个编码器(一个可训练的确定性函数,如神经网络)
- Pred() 是一个隐藏状态预测器(也是一个可训练的确定性函数)。
- 潜在变量 z(t) 代表未知信息,我们可以通过它准确预测所发生的事情。它必须从一个分布中采样,或在一个集合上变化。它是可信预测集合(或分布)的参数。
诀窍在于从观测三元组(x(t),a(t),x(t+1))中训练整个模型,同时防止编码器坍缩为忽略输入的琐碎解决方案。
自回归生成模型(如 LLM)是一种简化的特例,在这种模型中,1.预测器计算 x(t+1) 的结果分布,并使用潜在的 z(t) 从分布中选择一个值。 等式简化为:s(t) = [x(t),x(t-1),...x(t-k)] x(t+1) = Pred( s(t), z(t), a(t) ) 在这种情况下不存在崩溃问题
Yann LeCun关于世界模型的定义
首先,Yann LeCun阐述了其对世界模型的独特见解。他将世界模型视为一种计算框架,该框架基于当前观测值x(t)、前一时刻的世界状态s(t)、动作提议a(t)以及潜在变量z(t)进行运算。其中,编码器Enc()负责将观测转化为内部表示h(t),预测器Pred()则根据这些信息和行动提议来预测下一时刻的世界状态s(t+1)。值得注意的是,潜在变量z(t)代表那些允许精确预测未知变化的关键信息,它从一个分布或集合中抽样得出,并决定了可能预测结果的范围。
世界模型与自回归生成模型(如GPT-4)的关系
随后,Yann LeCun将这一复杂的模型结构与自回归生成模型(如GPT-4)进行了对比,指出后者是世界模型的一个简化特例。在自回归模型中,编码器直接采用输入作为内部表示,状态是对过去连续输入窗口的记录,且没有明确的动作变量。通过这种方式,GPT-4能够依据历史输入序列预测下一个离散输出单元。
人工智能与意识的讨论
在讨论过程中,一位名为Murat Beshtoev的网友提出了关于人工智能与意识之间区别的观点。他认为,在与GPT-4等先进语言模型的交互中,愈发明显地揭示出智能与意识可能是两个独立的实体。尽管GPT-4不具备意识,但其凭借编程的智能在沟通效果上往往超过大多数人类。Yann LeCun对此回应道,尽管LLMs积累了大量的知识库,但在真正意义上的智能方面,它们远不及拥有意识的生命体,比如大象或四岁儿童。
I-JEPA和V-JEPA相关问题
对话进一步延伸至具体技术应用领域,如I-JEPA和V-JEPA等相关研究。有网友提问此类模型如何处理“动作”因素,Yann LeCun解释说,这些模型实际上隐含地编码了从完整图像/视频到被遮挡或变换后的部分之间的转换关系。对于I-JEPA和V-JEPA而言,这种编码过程旨在确定待预测区域的位置。
模型预测控制与行动选择
此外,针对如何利用世界模型选择最优行动的问题,Yann LeCun引入了控制工程中的“模型预测控制”理念,即通过优化算法找到一系列动作序列,使得在世界模型预测的轨迹上所衡量的目标函数最小化。
Sora模型与V-JEPA的区别
最后,当网友提及Sora模型和V-JEPA是否能算作世界模型时,Yann LeCun澄清Sora模型是在像素空间而非潜在空间学习生成,纠正了对世界模型范畴的误解。同时,他也强调AI与真实世界的联系在于模拟和理解其所处环境,而非替代世界的运行机制。
结语
Yann LeCun老师会不会被小扎开除?🤣🤣,毕竟再牛也要给老板上产品挣钱啊
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
都是sora惹的祸👇👇