继续操作前请注册或者登录。

「机器人时代正式到来」灵魂汁子OpenAI浇给Figure 01:ChatGPT拥有人形身体



本文为1241字,建议阅读4分钟
OpenAI和Figure合作后续来了!Figure 发布了一个巨牛批的演示,LLM的多模态对话能力加上机器人对物质世界的干涉能力,我们设想的那种机器人可能真的快了
OpenAI和Figure ai宣布合作过去13天后,figure 01人形机器人正式接入OpenAI的能力,借助 OpenAI,Figure 01 现在可以与人进行全面对话,OpenAI模型提供高级视觉和语言智能,Figure神经网络提供快速、低级别、灵巧的机器人动作
视频中所有内容都是是端到端神经网络 ,从视频中可以看到,机器人的速度明显加快,开始接近人类的速度
Figure 01 的摄像头为由 OpenAI 训练的大型视觉语言模型(VLM)提供图像。
Figure 的神经网络还通过机器人上的摄像头以 10hz 的频率采集图像 ,然后,神经网络以 200hz 的频率输出 24 个自由度的动作
得益于与 OpenAI 的合作,现在人类可以与Figure 01 进行完整对话。 完整演示如下
机器人可以: 
- 描述自己的视觉体验 
- 计划未来行动 
- 反思自己的记忆 
- 口头解释自己的推理 
技术深挖 
让我们来分析一下视频中的内容:所有行为都是学习的(非远程操作),并以正常速度(1.0x)运行。
将机器人摄像头拍摄的图像和机载麦克风捕捉到的语音转录文本输入由 OpenAI 训练的大型多模态模型。 
该模型会处理对话的整个历史记录,包括过去的图像,从而得出语言回应,并通过文本到语音的方式反馈给人类。同一模型还负责决定在机器人上运行哪种学习到的闭环行为来执行给定命令,将特定的神经网络权重加载到 GPU 上并执行策略

将Figure 01 连接到一个大型预训练多模态模型,使其具备了一些有趣的新功能,Figure 01 + OpenAI 现在可以:
- 描述周围环境。例如,"桌子上的盘子和杯子等餐具接下来可能会被放到晾架上"
- 将 "我饿了 "这样模棱两可的高级请求转化为 "递给那个人一个苹果 "这样与上下文相适应的行为
- 用简单的英语描述它执行特定动作的原因。例如,"这是我能提供给你的桌上唯一可食用的东西"

了解对话历史的大型预训练模型为Figure 01 提供了强大的短期记忆。
考虑一下这个问题:"你能把他们放在那里吗?他们 "指的是什么?"那里 "在哪里?正确回答这个问题需要反思记忆的能力。
有了分析对话图像和文本历史的预训练模型,Figure 01 可以迅速形成并执行一个计划:1)把杯子放在晾架上,2)把盘子放在晾架上

最后,让我们来谈谈Figure 01 学习到的低级别双臂操作。
所有行为都由神经网络视觉运动转换器策略驱动,将像素直接映射为动作。这些网络以 10hz 的频率接收机载图像,并以 200hz 的频率生成 24-DOF 动作(手腕姿势和手指关节角度)。 这些动作作为高速率的 "设定点",供更高速率的全身控制器进行跟踪。 这是一种有用的分工:
- 互联网训练的模型对图像和文本进行常识推理,以提出高级计划 
- 经过学习的视觉运动策略执行计划,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形的袋子。例如,保持平衡

除了打造领先的人工智能,Figure 还垂直整合了几乎所有领域 
有硬核工程师设计 
- 电机 
- 固件 
- 散热 
- 电子 
- 中间件操作系统 
- 电池系统 
- 执行器传感器 
- 机械和结构

结语
即使就在几年前,我们也会认为在人形机器人计划并执行自己完全学会的行为时与它进行完整的对话是我们要等几十年才能看到的事情。显然,现在已经发生了很大变化
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

灵魂汁子浇给😂👇👇
到顶部