【重磅】马斯克是对的:纯视觉就是一切「TikTok联合港大,浙大证明」



本文为780字,建议阅读2分钟‍
马斯克对于自动驾驶一直坚持纯视觉路线,他的观点是:
当雷达路线和视觉路线出现分歧时,你相信哪一个?视觉的精确度要高得多,所以与其进行传感器融合,不如加倍使用视觉,传感器是一种比特流,相机的比特流比雷达(或激光雷达)高出几个数量级。
雷达必须显著提高比特流的信噪比,才值得进行复杂的集成。
随着视觉处理技术的进步,雷达将被远远甩在后面
就在这几天TikTok团队联合香港大学,浙江大学发表了论文《深度无所不能》证明了马斯克说得没错:视觉就是一切

拍一张照片,就能精准获取照片中物体的三维位置,比LiDAR技术还要出色,Vision is All You Need
TikTok团队训练出全方位深度学习模型 ,单张照片帧即可进行LiDAR质量深度估计 ,采用师生模型系统 。第一作者Lihe Yang 港大PhD在读,在TikTok实习时完成了这项工作

训练数据集估计包括:停车、家居自动化、游戏、驾驶、办公和建筑等领域
值得注意的是:
论文作者目标是构建一个能从单一图像进行深度估计的基础模型, 没有采用传统方法,即使用准确的地面实测深度图来训练模型
反而采用了一个庞大的(6200万张)未标记图像数据集,构成了“学生”模型的基础 ,随后建立了一个注释模型来给这个数据集标注, 注释模型是由一个包含150万标记图像的数据集即“老师”模型构建的 ,这一切成功的原因在于规模!他们在这个过程中经历了许多失败
深度信息的框架如下所示。作者采用标准管道来释放大规模无标记图像的威力

马斯克一直在说特斯拉不需要LiDAR或激光雷达,只需要图像,没有人相信。现在TikTok团队证明了他是正确的(又是大力出奇迹?)
无论如何,tiktok团队这项研究非常令人兴奋(尤其是这项非常重要的研究出自中国的研究人员),正好最近特斯拉的FSD V12 端到端纯视觉自动驾驶正式限量开放测试了,我想所有测试的车主在看到这一个研究结果时会更加安心一点
所以以后不喜欢头顶雷达的车主有福了?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
想要深入了解这项成果的看这里:‍‍‍‍https://depth-anything.github.io/

⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

纯视觉你看好吗?👇👇
到顶部