刘澍泉对话周光:端到端推动高阶智驾进程

随着人工智能浪潮的发展,端到端模型在自动驾驶领域崭露头角,通过将感知、规划、决策等关键模块整合到统一的神经网络之中,让自动驾驶更像人类司机一样驾驶,进一步推动了高阶智驾的量产进程,也随之催生了对数据、算力等底层基础设施的新需求。

近期,元戎启行CEO周光邀请腾讯智慧出行副总裁刘澍泉,在北京市区道路上体验了双方合作打造的业内首个“无图”(仅使用导航地图)高阶智能驾驶量产方案,并围绕自动驾驶量产、人工智能2.0时代等话题展开了一场精彩对话。

周光认为,智能汽车是打开物理世界通用人工智能的钥匙。智能汽车是人类首个达到千万级数据体量的机器人,对物理世界形成了海量共识的理解,将沉淀形成一个物理世界的基础模型,未来也会更容易迁移到其他机器人场景。周光表示,元戎启行一直顺应人工智能的发展,在端到端、大语言模型、生成式AI为核心的人工智能2.0时代,元戎启行能够早于行业多数人意识到并发掘这个事情,是一种来自于技术上的直觉。

面向自动驾驶领域,腾讯扮演的是一个比较纯粹的数字助手角色。刘澍泉表示,腾讯面向行业提供自动驾驶云、合规云以及地图相关的服务。希望和众多的合作伙伴,把整套的云加端的一个架构打通,从而通过高速的迭代、数据训练不断优化算法。

在今年1月份的CES期间,元戎启行与腾讯宣布在地图领域达成合作,推出了行业首个仅使用导航地图数据的高阶智驾量产方案,预计将于今年投入消费者市场。

以下是双方对话节选:

智能汽车是打开物理世界通用人工智能的钥匙

刘澍泉:今年越来越多有智能驾驶功能的车上市,而且价格在不断的下探,迭代在加快,整体的这个技术路线、方案路线慢慢开始趋同了,我想听听你的看法。

周光:经历了一年“无图”的方案,我觉得已经形成了行业的共识了,我们的这个方案是业内首个仅使用导航地图的自动驾驶方案,能够提供非常优质的城市NOA自动驾驶体验。

我们做了泛化测试,涉及了大概数十个城市,整体来说,我觉得腾讯地图的数据的质量还是挺高的。但可能在一些个别的城市,我们还是会有一些更新的问题,一些像二线、三线城市,它们修路的速度比较快,它的道路拓扑结构改变了,这种可能还需要做一些更新。但我相信随着高阶自动驾驶量产,有了实时的反馈,地图的更新也会更快。

刘澍泉:其实这就是腾讯所谓的云图一体嘛。通过这种云加端的架构,当车辆发现物理世界的差异,实时地把这种差异传回到云端,我们再做更新地图下发下来。

刘澍泉:要怎么理解,智能汽车是打开物理世界通用人工智能的钥匙呢?

周光:其实更早一点的自动驾驶系统,是经典机器人,都有感知决策定位模块。这些模块都是特殊针对这个场景所设计的,缺乏了实际上的通用性。而端到端的智能驾驶系统是由神经网络驱动的,包含感知模块、决策模块,通过神经网络、向量矩阵直联,并没有预先定义好的接口,所以它也是适用于机器人的。

我认为人类首个能达到千万级的机器人就是智能车,其他的机器人是不可能有这么多海量数据的,当你有了千万级的海量数据之后,慢慢地你会对物理世界形成一些共识的理解,你会对这个物理世界有一个基础模型,以后把这个模型迁移到其他机器人场景是更加容易的。

刘澍泉:元戎启行是准备怎么达成这样的目标呢?

周光:这不是一步就能达到,其实我们也前前后后经历了非常多的阶段,第一个阶段就是多传感器前融合,而且做了点云渲染。

但是在那个时间点上,其实还没有想到居然会成为端到端的一个环节。比如说今天我们这个车有七个摄像头,一个激光雷达。在前融合阶段之前,它需要有不同的七个算法,都去负责感知,然后做后端的融合,再去开这个车。做前融合实际上是把所有的东西放在一个坐标系里面,用统一的算法来做感知识别。

前融合是第一步,第二步是去高精地图。高精地图其实是能帮助我们做高级的语义判断,比如说像今天我们开车,不仅仅只是要看周围的100米,可能你需要知道这个路的曲率等比较难的任务,都是交给这个地图了。随着人工智能的发展,我们意识到,下一步其实我们是可以通过神经网络把静态元素、道路拓扑全部都复现,就有了这个“无图”的方案。

元戎启行从2020年初期开始的,前前后后经历过两年的时间,在2022年首次达到了一个相对还可以的效果,在2023年我们就把所有的动静态的感知放在同一个神经网络里面做。但是在那个点上我们就意识到了我们一直都要做减法。于是我们又做了下一件事:用数据驱动的预测决策系统。整个系统形成了两个模块,感知大模型以及规划决策大模型。

在去年年初的时候我们意识到,这两个模型其实通过这个神经网络直联,就是一个信息无减损的端到端结构。因此去年8月份就跑通了端到端,到今年3月份的时候,在NVIDIA的GTC大会上,我们对外官宣。

图、云一体化,为智能驾驶量产提供底层“加速器”

周光:刚才聊了很多关于元戎的端到端的技术,我现在也想问一下腾讯作为一个云商也是一个图商,怎么去面对这个赛道?腾讯的优势在于哪里?

刘澍泉:首先我们的战略定位是非常清晰的。腾讯做的是一个比较纯粹的数字助手角色,面向行业去提供自动驾驶云、合规云以及导航、地图相关的一些服务。

我觉得有几个比较有特色的服务:首先,刚才提到,我要有一个端到端的网络,但是在这个过程中你必须要有一个更精准的导航服务,它需要更精准的车道级的连接性,像腾讯从去年开始做的,也是双方把导航的能力和元戎端到端的大模型算法结合起来,去达到最好的调优状态。

第二点,自动驾驶相关的业务它是一个强数据驱动类的业务,所以它一定会需要更高的算力,更高的存储以及更广泛的网络覆盖,这一块是腾讯云的强项。我们把网络、存储、计算统一,能够做到更高的性价比,在这个方面也有一些优秀案例:例如和NVIDIA的合作、和博世的合作,当然也包括和元戎的合作。形成整体的一个数据闭环。我们特别希望和众多的合作伙伴,把整套的云加端的一个架构打通,从而通过高速的迭代、数据的训练再去finetune我们的这样一个算法。

顺应人工智能2.0时代潮流,端到端让自动驾驶更“有人味”

刘澍泉:实际上自动驾驶端到端的模型,它是把感知规控一体化的输入进来,最后得到一个更像人的一个决策结果,所以这个过程是一个偶然吗?还是说从一个学术发展也好,或者说技术演进里面有这样一个预判?有这样一个推导吗?

周光:我觉得是有这种感觉:就是说从一开始做融合、做BEV,都是你感觉这样是对的,但是你其实不知道终局的。因为当时那个点上还有这个高精度地图之争、后融合前融合之争,但是直到你看懂了端到端的时候你会发现,其实你所有的铺垫都是为了最后这一步——做一套端到端系统DeepRoute IO。

我们最大的优势就是我们一直顺应了人工智能的发展,尤其是人工智能2.0时代,2.0时代就是端到端、大语言模型、生成式,分别针对了语言的、数字生成式的以及这个机器人物理实践,我们能够早于行业多数人去意识到、去发掘到这个事情,然后去开始去投入布局。可以说这是一种来自于技术上的直觉。

刘澍泉:您提到了一个很重要的点,就是今天感知的模型规控模型之间的这个直通,在这一块的话你有什么可分享的技巧吗?

周光:我们做一个生物学的解剖:我们人脑肯定是一个神经网络,但是它也会分为感知、视觉和语言中枢各种模块。今天的端到端它也是由不同功能的模块构成的,只不过都是通过直联,这个直联其实牵涉到你的训练方法、你的训练步骤、你的数据,这个其实是今天的核心竞争力,真的不是那些网络。

刘澍泉:今天我们有了一个端到端的大模型,但是模型参数太多了,模型太大了,我们今天算力是受限的。怎么能够把它去合理的“减脂”,把它部署到车上呢?

周光:今天的端到端大模型它也并不是一个完全Transformer-based,所以说它对算力的需求相对来说没有那么大,另外来讲,一个端到端系统它并不意味着它一定就是大,像我们这次的产品叫DeepRoute IO,IO就是input、output(输入、输出),它只是讲你是input,然后我有output,中间没有人类编程而已。端到端跟大模型是两码事,会根据你数据的情况、你的网络的容量情况以及你要达到的场景情况,去选合理选择你的模型大小。当然你基本的这些模型优化裁剪,这就是一些基本功了。

刘澍泉:自动驾驶过程中经常遇到一些特殊场景,要面对车流、行人、自行车等等大量不确定的因素,像这种情况元戎有什么自己的独门绝技吗?

周光:之前的这种预测都是基于速度推断的,就是做一个匀速的假设或者做一些速度的二阶导,这是比较初级的做法,基于数据驱动的、基于端到端的这个预测,会是更加丰富的一个预测场景。比如说在一个安全岛上的一个人,可能你的预测是他不太会乱跳下来,但是在路口的一个人他可能就窜出来概率比较高,它会考虑整个场景的前后表现,这样车子开起来就很“有人味”。

刘澍泉:刚才,周光博士提到了打造物理世界通用人工智能大门这样的一个愿景,腾讯也有一个愿景:做好数字化助手、做好底层的云服务、做好底层的地图服务、做好大模型的基础设施,我们共同打造整体的一个合作伙伴体系,共同去打开物理世界的大门,我认为是我们的共同的一个伟大的目标。

周光:我觉得我们在整个的这个产业链、生态链、还要继续携手,然后一起共赢,向着目标前进。