被爆出创业后,AI教母李飞飞TED首次揭秘空间智能:理解真实世界的关键



刚刚,李飞飞在TED进行了一场关于空间智能的演讲,演讲题目,‍‍‍‍‍‍‍‍‍‍‍‍
With spatial intelligence, 
AI will understand the real world.
空间智能是实现人工智能的关键一环,推动AI向前发展,我们需要超越当前的视觉和语言能力,构建能够感知和行动于三维世界的空间智能系统
想象一下,未来的机器人能够理解语音指令"机器人,快去给我准备做饭的餐桌",并熟练地执行这个任务,空间智能正是实现这种人机交互的关键所在。李飞飞在TED演讲中分享了她在这一领域的很多牛X的研究成果,我们一起来看看,都有啥
opencat 第一时间带来详细报道
李飞飞主要观点
1‍‍‍‍‍
算力、数据和算法的飞速发展推动了现代人工智能的崛起。神经网络算法、GPU硬件以及ImageNet等大型数据集的集成,为计算机视觉奠定了坚实基础

2‍‍‍‍‍
视频生成、图像字幕等视觉任务取得了长足进展,但真正的空间智能需要将感知与行动完美结合‍

李飞飞的学生们正在开发能够360度重建三维场景、生成逼真视频的新型人工智能模型

3‍‍‍‍‍
除了利用真实世界数据外,创建高度复杂的虚拟环境同样重要。李飞飞课题组推出了BEHAVIOR-1K数据集,模拟各种日常场景,旨在培养以人为本的机器人空间智能

4‍‍‍‍‍
结合空间智能和语言理解能力,机器人将能够根据语音指令完成诸如准备餐桌等复杂任务,进而帮助人类完成他们需要协助的工作
演讲全文‍‍‍‍‍‍‍‍
《赋予 AI 空间智能,让它理解现实世界》
让我展示一些东西,确切地说,我要展示你一个空无一物的世界
5.4亿年前,世界一片漆黑,没有光线,没有视力。虽然阳光能够穿透海洋表面千米深处的黑暗,海底热液喷口也散发出微弱的光芒,孕育着生命,但这些古老的海水中没有一只眼睛,没有视网膜,没有角膜,也没有晶状体。因此,所有这些光线,所有这些生命都在无视地进行着

曾经,我们无法想象“看见”的概念,因为它从未存在过,直到它出现了。出于我们现在才开始理解的原因,在漫长的演化过程中,第一个能够感知光线的生物出现了。它们是第一个发现除了自身以外还有其他事物的生物,第一个发现一个充满意义的世界
视力的出现被认为是寒武纪生命大爆发的关键因素,在这个时期,大量动物物种的化石记录开始出现。最初的被动经验,简单地让光线进入,很快就变得更加活跃,神经系统开始进化。从感知到洞察,从看见到理解,理解引发行动,而所有这一切都促成了智能的产生
今天,我们不再满足于仅仅依靠自然赋予的视觉智能,好奇心驱使我们创造能够像我们一样智能地“看见”的机器,甚至比我们做得更好。九年前,在这个舞台上,我发布了关于计算机视觉的早期进展报告,这是人工智能的一个分支
三种强大的力量第一次汇聚在一起:卷积神经网络算法家族、称为图形处理单元 (GPU) 的快速专用硬件以及大数据。例如,我的实验室经过多年精心策划的 ImageNet 数据集,包含了 1500 万张图像。这三者的结合开启了现代人工智能的新时代
我们已经走过了漫长的道路。当时,仅仅给图像贴上标签就已经是一个巨大的突破。但这些算法的速度和准确性一直在快速提升。我的实验室举办的年度图像识别挑战赛,旨在评估这些进步的性能。在这个图中,你可以看到每年都有里程碑式的模型出现,标志着性能的提升

我们想要更进一步,创造能够分割物体或预测物体之间动态关系的算法,这些工作是由我的学生和合作者完成的。还有更多。还记得上次我展示了第一个能够用人类自然语言描述照片的计算机视觉算法吗?那是与我之前一位才华横溢的学生安德烈·卡帕西一起完成的工作。当时,我问他:“安德烈,我们能让计算机反过来做吗?”安德烈笑着说:“哈哈,那是不可能的。”

正如你从最近的这篇文章中看到的,不可能的事已经变成了可能。这要归功于扩散模型家族,它们为当今的生成式人工智能算法提供了动力,能够将人类的提示语句转换为全新的照片和视频。你们中的许多人可能已经看到了 OpenAI 的 Sora 所取得的令人印象深刻的成果。但即使没有大量的 GPU,我的学生和我们的合作者也开发了一个名为 World-Month 的生成式视频模型,它的时间甚至比 Sora 更早。你正在看到一些这些结果
当然,还有改进的空间。看看那只猫的眼睛,以及它在水面上行走的方式,而且永远不会弄湿,这太神奇了!如果我们能从这些错误中吸取教训,就能创造出我们所想象的未来。在未来,我们希望人工智能能够为我们做所有它能做的事情,或者帮助我们
多年来,我一直说,拍照并不等于看见和理解。今天,我想补充一点,仅仅看见是不够的。看见是为了行动和学习。当我们在这个三维世界中行动时,我们就会学习,学会更好地看见和行动
自然创造了这个由空间智能驱动的看见和行动的循环。为了说明你的空间智能一直在做些什么,请看这张图片。如果你觉得你想做点什么,请举手。在过去的几毫秒内,你的大脑观察了这个玻璃杯的几何形状,它在三维空间中的位置,它与桌子、猫和其他所有事物的关系,并预测接下来会发生什么。行动的冲动是所有拥有空间智能的生物的本能,它将感知与行动联系起来

如果我们想要让 AI 超越其当前的能力,我们需要的不仅仅是能够看见和说话的 AI,我们还需要能够行动的 AI。的确,我们正在取得令人兴奋的进展。空间智能领域的最新里程碑正在教计算机看见、学习、行动,并学会更好地看见和行动
这并不容易。自然花了数百万年才进化出空间智能,它依赖于眼睛捕捉光线,将二维图像投射到视网膜上,以及大脑将这些数据转换为三维信息。最近,谷歌的一组研究人员能够开发出一种技术,可以将一组照片转换为三维空间,就像我们在这里展示的示例一样
我的学生和我们的合作者更进一步,创建了一种算法,可以将一张输入图像转换为三维形状。这里还有更多示例。还记得我们谈论过可以将人类句子转换为视频的计算机程序吗?密歇根大学的一组研究人员想出了一种方法,可以将这些句子转换为三维房间布局,就像这里展示的一样
我的斯坦福大学同事和他们的学生开发了一种算法,可以将一张图像生成无限可能的空间供观众探索。这些都是未来可能性的第一个迹象,一个未来,人类可以将整个世界转换为数字形式,并模拟其中的丰富性和细微差别
自然在我们每个人的大脑中隐性地做到了这一点,空间智能技术希望为我们的集体意识做到这一点。随着空间智能的快速发展,一个新的虚拟心理学时代正在我们眼前展开
这种互动催化了机器人学习,这是任何需要理解和与三维世界交互的具身智能系统的关键组成部分。十年前,来自我实验室的 ImageNet 数据集包含数百万张高质量照片,帮助训练计算机“看见”。今天,我们正在对行为和动作做同样的事情,训练计算机和机器人如何在三维世界中行动
但我们不是收集静态图像,而是开发了由三维空间模型驱动的模拟环境,这样计算机就可以拥有无限的可能性来学习行动。你只是看到了几个例子,这些例子用于在我实验室领导的一个名为 Behavior 的项目中训练我们的机器人
我们还在机器人语言智能方面取得了令人兴奋的进展,利用基于大型语言模型的输入。我的学生和我们的合作者是第一批能够展示机械臂根据口头指令执行各种任务的团队,例如打开这扇门、拔掉正在充电的手机、用面包、生菜、西红柿制作三明治,甚至为用户放一张餐巾纸。通常,我会想要我的三明治再放点东西。但这是一个良好的开端
在古代的原始海洋中,感知环境的能力引发了与其他生命形式相互作用的寒武纪生命大爆发的序幕。今天,这道光照亮了数字化的思维。空间智能让机器不仅能够相互交互,而且能够与人类、三维世界(无论是真实的还是虚拟的)交互
随着这个未来的成形,它将对许多人的生活产生深远的影响。以医疗保健为例。在过去十年中,我的实验室在将人工智能应用于解决影响患者结局和医护人员倦怠的挑战方面迈出了第一步
与斯坦福医学院和合作医院的合作者们一起,我们试点了智能传感器,这些传感器能够检测医护人员进入患者房间却没有正确洗手的情况,或追踪手术器械,或在患者有跌倒等身体风险时提醒护理团队
我们将这些技术视为一种环境智能,就像额外的眼睛,能够发挥作用。但我想要为我们的患者、医护人员和护理人员提供更多互动式帮助,他们也迫切需要额外的双手
想象一下,自主机器人运输医疗用品,而护理人员则专注于我们的患者,或者增强现实技术指导外科医生进行更安全、更快、更少侵入性的手术。或者想象一下,患有严重瘫痪的患者通过思维控制机器人,没错,就是通过脑电波来完成你和我都认为理所当然的日常任务

你正在这段视频中看到未来的一瞥,这段视频最近由我的实验室进行的试点研究。在这段视频中,机械臂正在烹饪日本寿喜锅,它只由脑电信号控制,这些信号是通过非侵入式脑电帽收集的。谢谢
五亿年前视觉的出现将黑暗的世界彻底颠覆了。随之而来的是最深刻的进化过程,即动物世界中智能的发展。过去十年人工智能取得的惊人进步同样令人惊叹。但我相信,这种数字化寒武纪生命大爆发的全部潜力只有在我们为计算机和机器人赋予空间智能,就像自然对我们所有人做的那样,才能完全实现
这是一个激动人心的时代,我们要教我们的数字伴侣学习推理,并与我们称之为家的这个美丽的三维空间进行互动,并创造更多我们都可以探索的新世界
要实现这个未来并不容易。这需要我们所有人采取深思熟虑的步骤,并开发以人为中心的科技。但如果我们做对了,由空间智能驱动的计算机和机器人将不仅是实用的工具,而且是值得信赖的伙伴,能够提高和增强我们的生产力和人性,同时尊重我们的个人尊严,并提升我们的集体繁荣
未来最让我兴奋的是什么?
这是一个人工智能变得更加敏锐、洞察力和空间感知力,它们加入我们,在我们追求用更好的方式创造更美好的世界的征途上。谢谢。
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

空间智能👇👇
到顶部