本文为1536字,建议阅读4分钟
OpenAI 推出sora后,马斯克受到了极大刺激,就在刚刚,马斯克放出一段视频并说明:特斯拉从去年开始就生成视频了
整个视频14分钟,讨论主题是:Learning a General World Model
主要内容如下:
特斯拉正致力于构建一种能够理解和模拟任意情境的强大通用世界模型
这一模型采用神经网络架构,通过学习过往视频序列以预测未来的场景,并在不同摄像机视角下保持颜色、运动的一致性。即使没有明确要求处理三维信息,该模型也能自然地理解并推测出三维空间中物体的运动轨迹,展现出对深度和动态的独到见解。
特斯拉研究团队开发的这种模型不仅能基于过去的驾驶视频预测未来路况,而且可以根据不同的行动指令来模拟各种可能的未来情景
例如,在演示中,当车辆被要求保持车道行驶时,模型能够精准预测车辆在未来路径上的行驶状态;而当指示车辆变道时,模型同样能准确模拟其变换车道的行为。这一特性赋予了模型强大的可塑性和适应性,只需输入过去的视频片段,无论是来自真实的驾驶环境还是油管等平台的任何视频剪辑,都能用来训练这个通用动力学模型。
更为重要的是,这款模型不仅局限于RGB图像的未来预测,还能够进行光流估计、语义分割以及3D场景重建
这意味着它能在没有额外提示的情况下,仅依赖于过去的信息就能推测出未来的三维场景变化。这种对未来复杂情况(如烟雾弥漫、纸屑纷飞)的理解和处理能力,为自动驾驶系统应对现实中难以预先定义的各种突发状况提供了有力支持。
特斯拉的目标是打造一个能够在全世界范围内安全、高效、类人化驾驶的通用栈,无论何种速度或道路条件均能胜任
为此,特斯拉投入巨资开发自家定制的计算硬件“Dojo”,旨在成为全球顶级的计算平台之一,为训练这些复杂的视觉基础模型提供充足算力。
同时,特斯拉也在共享汽车和机器人之间的多种网络结构,比如已经应用于两者间的占用网络,展现出良好的泛化性能。这一愿景旨在实现跨汽车和机器人平台的广泛适用性,让无论是车辆在道路上的行驶规则,还是机器人行走时的道路识别和周围车辆运动规律的理解,都能统一在一个模型中得到解决。
此外,特斯拉正在研究如何处理世界模型中的移动对象问题,利用多种线索跟踪场景中相对于背景移动的对象,并且能够根据需要对运动物体进行单独的分割。不论是常见的可移动物体如车辆、卡车,还是诸如飞行垃圾袋等非典型移动障碍物,模型都能够通过分析光照和其他信号来有效识别。
针对自动驾驶系统的具体应用,特斯拉的模块化设计使其得以灵活配置和整合各个模块,如占用网络已在FSD(全自动驾驶系统)中用于避免碰撞等任务,特别是在处理不规则形状或特殊构造车辆时,相比于立方体或其他简化模型,占用网络能够更精确地判断物体是否存在及其运动状态,从而指导规划系统做出安全决策。
结语
马斯克目标是凭借不断迭代的世界模型和尖端的计算平台,力求在自动驾驶领域实现质的飞跃,从简单的视觉感知跨越至对未来场景的深层次理解和模拟
OpenAI sora 目前还不完美,但是这正是马斯克一直以来需要的东西,马斯克一直主推的纯视觉端到端的自动驾驶系统就是建立在像sora这样的神经网络模型基础上的,sora已经让全世界看到了理解和模拟世界的可能性,那么接下来OpenAI会怎样影响自动驾驶系统?影响马斯克的生意?毕竟特斯拉的高估值是建立在人工智能基础上的
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
纯视觉就是一切?👇👇