张亚勤院士:大模型涡轮增压,赢智能驾驶者赢汽车变革下半场

贾浩楠 发自 副驾寺智能车参考 | 公众号 AI4Auto
“L4完全可以落地,技术已经突破”。
“自动驾驶经历过硬件驱动的1.0、软件驱动的2.0时代,已经走到大模型驱动的3.0时代。”
“不同意马斯克的纯视觉路线,自动驾驶需要更多数据源”。
这些观点来自张亚勤,清华智能产业研究院AIR院长、中国工程院院士。

在自动驾驶公司毫末智行刚刚举办的AI Day上,这位全球AI大牛,分享了他对如今自动驾驶技术发展的看法。
(以下整理自张亚勤院士演讲原文,“我”代表张亚勤)
L4完全可行,技术已突破
我想谈一下在智能驾驶方面新的进展,这些年我一直用同样的题目,但是每一次会发现里面的内容都完全不同,特别是最近生成式AI出来之后,对自动驾驶有了很大的推进。
我们一直讲新的“四化”——网联化、智能化、共享化、电动化,其中最重要的是两化——电动化、智能化。
电动化可以理解成是新能源,现在中国已经是全球最活跃、最大的新能源市场,不管是在用户规模或者出口规模都是全球第一,这是新汽车的上半场。

下半场最重要的是智能驾驶,未来5-10年全球竞争的热点和制高点就是自动驾驶。人工智能是自动驾驶核心的技术驱动力,毫末从一开始成立就以AI作为公司的技术引擎,所以HAOMO AI DAY十分重要。
为什么这么多的企业都在做智能驾驶?包括传统汽车厂商、新势力、高科技企业都在进入自动驾驶市场?其实,这里面有很多的技术挑战,首先从AI的角度来看,自动驾驶是高度复杂的,需要很多算力、新算法,是最具有挑战的AI垂直领域问题。
其次,自动驾驶也是目前看到的聚生智能、边缘智能、自主智能的交集。刚刚毫末的测试视频里可以看到自动驾驶面对这么多的复杂场景和变化,确实有很多的挑战。
但是,我认为自动驾驶是完全可以实现的,其中有一些关键的问题,有一些是市场的因素,有一些是非市场的力量。
市场的因素包括技术是否可行?用户有没有真正需求?产业生态及商业模式。非市场因素也很重要,需要行业有技术突破,也需要有政府产业方面的支持,以及与政策法规突破。

在技术方面,一开始很多人在讲无人驾驶是否可行,特别是L4以上是否可行?我从一开始认为就是可行的。
最近看到一些数据,无人驾驶比有人驾驶安全10倍左右,在去年我还在讲是3倍,今年已经到了10倍。这说明技术突破已经完成。
在商业化路线图上,目前也有各种各样的方式,有一些是用单车智能,有一些车路协同,还有渐进式、跳跃式的路线,开源、封闭的路线,不同企业都在探索不同的路线图,没有说哪一个是完全正确的,产业在用不同的方式尝试自动驾驶。
我知道毫末选择了渐进式,我觉得这些都很好,大家用不同的方式去探索。
大模型突破怎么用到自动驾驶?
最近在AI方面有很多新的突破。我们看到新的算法、新的框架,特别是预训练、多模态、多监督学习、大模型成为主流。
在Transformer之前,ResNeT曾经是作为非常广泛应用的视觉算法框架,我之所以特别提到ResNeT,这个算法其实是中国的年轻科学家在中国完成的,因此中国科学家对于人工智能有着很大的贡献。
我听到很多的说法,认为AI的核心主要是从欧洲来的,基本的理论是从那里来的,但是中国科学家在人工智能领域也做出了很多的贡献。

大模型很重要的一点是要突破技术限制。过去六、七十年中主要有三个重要的理论:摩尔定律、冯·诺依曼架构、香农三定律,现在那这三个理论都在被突破。
如果不突破,大模型不可能实现,这其中需要有新的传感方式,新的感知方式,需要有新的计算机体系架构的突破,包括芯片新框架等,现在主流的Transformer和CNN卷积神经网络也都不一样。目前,数字技术产业主要还是基于硅片的计算,未来可能会有生物科学、光计算、量子计算。

当前,很重要的一点就是大模型带来生成式的AI,过去AI讲的是分类,也就是判别式的AI。现在可以完全生成新的内容创意、数据的创意,也可以在场景方面有很多新的创意。下面我稍微讲一下在这方面的工作。
大模型走向了新方向。首先是多模态,不仅仅是自然语言、图像、视频,也包括传感信号、激光雷达等从所有车机发出的物理感知、生物感知信号。大家看到GPT-4大模型就是多模态的,其功能很强大,不过效率很低,大致比人大脑的计算和决策效率至少要低1000倍,所以还需要有新的算法,我觉得5年之后就会有新的算法出现。
其次是自主智能,可以去自动的完成任务,包括边缘计算,把很复杂的大模型怎么样放在手机、汽车、机器人边缘上,还有具身智能和物理世界连在一块,我认为自动驾驶是最重要的具身智能场景。未来是脑机智能阶段,大模型将面临怎么样用到生物的世界、生命的世界,怎样让人和脑更好的连接。

新技术架构都会用到大模型,就像新的AI操作系统一样,上面会有很多垂直的模型,包括做自动驾驶或者其他像生命科学垂直的模型。
我们在从事各种研究的时候希望有一个大的框架,比如智能驾驶方面要先确定一些技术路线。
首先我认为多模态的感知很重要,多源、多尺度、多维的数据很重要。因为做无人驾驶、智能驾驶,机器人的优势首先就是要求数据比较多,这个数据优势不能扔掉。所以我不同意马斯克所说的只用摄像头,我们需要用更多的数据源。
其次是现在很多的自动驾驶会用到很多高精地图,但是我们认为未来是轻地图,不能完全依赖于地图。
自动驾驶达到最后的安全、可靠阶段一定是端到端方式实现的,这个也非常难,这里面有更详细的技术因素,包括生成式AI、强化学习、大语言模型。

AIR也提出了自己的自动驾驶基础模型。首先模型提出了怎么样获取不同数据,包括真实世界数据和仿真数据。
数据要经过受控管道进行清理,然后再经过两个大模型:感知模型、决策模型,包括在一些云端和车端的关键场所做出决策,有一些模块是提供信息,有一些是统计的,也有一些是基于规则的模块。
我在里面专门把“强化学习”拿出来,因为强化学习我从百度开始的时候就在用到的,但是很难用。因为自动驾驶安全性很重要,用起来相当困难,但是我认为这个是我们唯一真正达到更高安全的方式。
强化学习可以学到新的东西,现在泛化的方式要靠强化学习去学习,最近也有很多新的进展。怎么样把强化学习用到很多模拟和决策,用到真正驾驶的行为当中。左边模型是垂直大数据,怎么样用强化学习去调整模型。
大模型驱动自动驾驶3.0时代
生成式AI怎么样能用到仿真、决策当中?
这里面有一个小的例子,大模型和深度学习都有透明度的问题,所以我们也做了这方面的研究,我到底为什么做这个决定?左转、右转、刹车,告诉我看到什么东西了,以及我为什么要做这个决定,它可以引导怎么样做决定。这个是用真实数据、仿真数据、垂直模型、大模型生成语意深度场景,包括交通和行人的信息。

另外是人脑和机器的融合,我们要去研究一下人是怎么开车的。人有的时候决策很好,有的时候决策不好,把这些信息通过传感器收集起来。一方面在很长时间人和机器要共驾,无人驾驶要慢慢理解人的驾驶。另一方面把模型用到算法当中,改善算法的效率。

最后,我们非常高兴能和毫末在技术方面有深度的合作,这个合作是关于怎么样把强化学习用到认知决策里面?怎么样用真实的数据和实车场景用强化学习把它融合起来,当前,强化学习有很多的问题,在线或者离线的方式,包括函数定义的问题、策略模糊性的问题,所以我们做了很多这样的研究。过去一年多,在国际顶会发表了很多的论文,同时也有专利,最重要的是现在开始用到车里面,刚刚看到物流的小车已经开始用这些算法。
总结一下,如果看智能驾驶和自动驾驶经历的不同阶段,一开始的时候更多是用激光雷达和硬件驱动,更多是基于人工的规则。2.0是软件和算法的驱动,这个阶段有更多的传感器,也要靠机器学习和规则。现在走到3.0的时代,就是大模型的驱动,这个阶段有多传感器用到端与端的算法,也会用到强化学习,可以更大程度地实现自动驾驶在真实的世界落地。
— 联系作者 —

— 完 —
【智能车参考】原创内容,未经账号授权,禁止随意转载。
点这里👇关注我,记得标星,么么哒~
到顶部