地平线陈黎明:2025年,自动驾驶将迎来ChatGPT时刻
2024-07-12 来源:盖世
什么是ChatGPT时刻?我们认为它不光是整个的性能,最关键的是产品的体验,是产品的可用性与好用性。目前我们看到当下的城区NOA大部分还处于可用阶段,还没有达到好用的阶段。主要的问题还是在于:
1.怂通行效率低,体验接管
2.莽行为不拟人,安全接管
3.急快速开城导致可用性下降,通过率低
真正“好用”的智驾2.0的系统,要提供拟人化的智驾体验
地平线认为,真正“好用”的智驾2.0的系统,要提供拟人化的智驾体验,不仅仅要保障我们的物理安全,更重要的是心理安全。用户亟需好用的城区NOA 2.0系统,需要实现通行效率、驾驶拟人、场景通过率的全面突破。
再进一步,要打造用户爱用的智驾系统3.0,普惠每个人,让智驾飞入寻常百姓家,陪伴用户每刻、每程。
智驾系统要做到“好用”,要解决“Scale Out”和“Scale Up”难题
要解决“好用”的问题,我们认为首先要解决自动驾驶的scale up和scale out的难题。所谓scale up,在特定、固定、受控的小ODD范围内实现性能最优,能够处理很多复杂的场景。但是在广泛的场景应用里面,系统性能却无法保持,出现我们讲的怂、鲁莽这些行为,使得整个自动驾驶的应用还受限于一些相对小的范围,在大范围上体验不好。我们追求的目标,是要实现在一个能够scale up更好的上限,同时在所有的地方都能够开。
要解决这个问题核心的要素就是四个:算法、算力、数据、工程能力。算法是决定了整个系统的性能的上限,然后算力和数据是决定了技术迭代速度。工程能力决定了整个量产化的规模和用户的体验。
从规则驱动到数据驱动,技术迭代的“跷跷板效应”无法全面提升系统能力
算法上,有基于规则的和数据驱动的两种开发范式,也是业内常说的软件1.0和软件2.0。软件1.0基于大量人工规则,系统上限低,下限可控;软件2.0,数据驱动的端到端系统,实现信息无损传递,系统上限高,而下限不可控。
从中,我们发现当前技术迭代的“跷跷板效应”,无论是rule-based,还是数据驱动的端到端系统,单一都无法全面提升系统能力,不得不在系统上限的提升和系统下限的保障二者之间做取舍。
地平线采用端到端与交互博弈,实现“Scale Out”和“Scale Up”的最优解
在感知端,地平线采用“三网合一”端到端,能够把传感器信息、包括地图、导航信息都作为一个输入源输入到一个模型中进行训练推理。同时,基于感知端到端的优势,不仅可以输出动静态目标信息,还能输出高维特征级信息,实现信息的无损传递,从而提升感知端的系统上限,带来对于世界的认知能力和系统性能的全面提升。接着无损信息输入到下游的规控,规控里面有基于神经网络的模块,也有少量基于规则的部分做安全兜底,既能提升系统上限,也能确保系统下限。整个系统基于动静态推理与数据训练,实现场景认知与理解,提升场景泛化能力,从而实现全域可开。
地平线2016年提出的“智能计算的新摩尔定律”,为智能芯片设计与性能提升指明方向,定义智能计算最优解
地平线很早就意识到,如果能够把软件通过硬件实现,能够让系统性能大大提升,从而能够让整体的系统成本大幅降低。所以我们当时提出了智能计算的新摩尔定律。
“新摩尔定律”的公式也很简单,是一个简单的乘法。把单位成本下的计算性能作为目标,把这个目标分解成三个因子:
1.第一个因子就是大家耳熟能详的TOPS per dollar,花每块钱能买多少算力,这是经典的理论峰值计算效率,通常来讲要靠两件事情来做到,第一个就是摩尔定律,第二就是创新型的硬件架构设计
2.第二个指标是叫Utilization rate(有效利用率),有了计算资源,怎么样充分利用?涉及到编译器、Runtime、中间件、操作系统的优化,软硬件协同,充分提升计算利用率
3.算法效率。每TOPS算力上能实现的算法效率。
地平线“三项全能”——在硬件的架构、软件中间层的优化、算法的创新上,软硬协同,极致优化,永远以更低的成本去获得更高的计算性能。
BPU历经三代迭代,随着自动驾驶的技术演进而持续进化
基于对算法趋势与应用场景的前瞻判断,BPU为行业领先的主流算法设计,最大化能效、算法性能、灵活性。
• 伯努利架构实现从浮点到定点计算的演进,面向ADAS场景,实现高性能低功耗的感知计算;
• 贝叶斯架构实现从感知到预测的支持,面向高速NOA,实现感知到预测的高效计算;
• 纳什架构实现从感知、预测到决策的支持,面向全场景NOA,高效支持交互式博弈。
软硬结合,超越摩尔定律
从最新一代纳什回顾第一代BPU架构伯努利,在过去六年的时间里面,BPU整个计算性能提升了246倍,对于Transformer提升的性能超过了27倍。
在同一个时期如果对比摩尔定律18个月提升一倍的情况,它六年时间一共提升了16倍,实际上我们通过软件和硬件的优化,远超摩尔定律提升的速度。
地平线用软硬结合技术,推动智驾“好用”更“爱用”
首先第一,我们要让驾驶的行为Human-like(拟人化),这个技术典型就是通过端到端,深度学习人类驾驶行为。
进一步我们要推动自动驾驶不仅仅在简单的case里面能丝滑地处理问题,它更要能在复杂的case里面,通过自己的思考去举一反三地处理极限场景,应对客观世界的复杂性。这就能进一步推动整个智能驾驶从拟人化到anytime、anywhere,就是“每刻”“每程”。这需要交互博弈技术,更复杂的一种决策行为。
另外,到达“爱用”,整个系统必须成本可控,让每个人都可以享受到。地平线提供的解法就是要通过软件、硬件的联合优化,让整个系统成本不断降低,这就是地平线一直在做的BPU计算架构。
Horizon SuperDrive™️—— 全场景智驾解决方案样板间
地平线希望在我们的软件、算法研究还有先进的芯片基础上打造一个“样板间”,用先进技术打造“优雅从容”的拟人化系统,实现全场景无差别的高阶智驾。
基于领先的软硬件产品和技术,地平线达成的商业成果
1.地平线是首家且每年均为最大的提供前装量产ADAS和AD解决方案的中国公司
2.前十大中国OEM均为我们的客户
3.目前已经累计500万片芯片出货,累计斩获230余个量产定点车型,有超过110款车型实现了量产,推向了消费者,行驶在中国的大地上,并且已经安全陪伴用户行驶了百亿公里里程。
地平线总裁 陈黎明博士
——陈黎博士·演讲速记实录——
尊敬的各位嘉宾、各位业界同仁,大家上午好!我是地平线陈黎明,今天要给大家汇报的题目是:产研向高而行,解锁高阶智驾新思路。
首先我们来看一下,大家都知道现在正处在新能源汽车下半场,也就是我们讲的高阶自动驾驶和智能座舱。我们看到目前20万以上的车NOA的配备率还在不断的增加,从22年到23年,20到30万之间的车NOA的装配率增长了24个百分点,30万以上的车NOA的装配率增长了19个百分点。而且今年目前我们看到大概前十个高端车型当中有八款都配备了NOA,所以我们看到高阶自动驾驶正在迎来增长的拐点。
另外我们再来看一下关于行业里近期热聊的端到端。大家都知道2022年初的时候openAI的ChatGPT在AlphaGo之后又带来了很大的惊喜,充分展现了AI的能力和巨大的潜能,今年特斯拉推出了基于端到端大模型的FSD v12.3,在自动驾驶领域也给我们比较惊艳的亮相,让我们看到了端到端大模型在自动驾驶应用上的潜能,并且开始落地。
我们认为,2025年,自动驾驶将迎来ChatGPT 时刻。
什么是ChatGPT时刻?我们认为它不光是整个的性能,最关键的是产品的体验,是产品的可用性与好用性。
目前我们看到当下的城区NOA大部分还处于可用阶段,还没有达到好用的阶段。主要的问题还是在于比较“怂”,还有一个问题是比较鲁莽,再有一个是通过率比较低。
我们都知道终端用户需要一个更好用的智能驾驶系统。它应该是能够带来更加拟人的智驾感受。我们讲的智能驾驶1.0“可用”,只是解决了物理安全的问题。“好用”不但要解决物理安全的问题,还要解决用户心理安全的问题。所以在实现通行效率、拟人驾驶、场景通过率方面都要进行全面的突破。
当然除了“好用”之外,还要做到'爱用',需要进一步普及到每个用户,使得每个人都可以用,就是我们讲的高阶自动驾驶的平权化。这些思考不仅仅是技术思维,更多的是产品思维、是用户价值思维。以用户价值为先,驱动我们去解锁高阶智驾新思路。
要解决“好用”的问题,我们认为首先要解决自动驾驶的scale up和scale out的难题。所谓scale up,在特定、固定、受控的小ODD范围内实现性能最优,已经达到了很高的性能,能够处理很多复杂的场景。但是在于广泛的场景应用里面,我们能够看到性能的上限非常的低,就是刚才我们讲的怂、鲁莽这些行为。使得整个自动驾驶的应用还受限于一些相对小的范围,在大范围上体验不好。
我们追求的目标是要实现在一个能够scale up更好的上限,同时在所有的地方都能够开。
要解决这个问题核心的要素就是四个:算法、算力、数据、工程能力。算法是决定了整个系统的性能的上限,然后算力和数据是决定了技术迭代速度。工程能力决定了整个量产化的规模和用户的体验。
我们看一下算法方面,目前两大主要的开发范式:一个是基于Rule-based,我们讲的是Conventional开发范式,Software 1.0。还有一个基于数据驱动的开发范式,业界叫做Software 2.0。两个各有利弊,软件1.0基于大量人工规则,系统上限低,下限可控;软件2.0,数据驱动的端到端系统,实现信息无损传递,系统上限高,而下限不可控。所以这里就出现了两种开发范式和路径的“翘翘板”,无论是rule-based,还是数据驱动的端到端系统,单一都无法全面提升系统能力,不得不在系统上限的提升和系统下限的保障二者之间做取舍。
对于自动驾驶来说,我们既要能够有很好的技术体验,同时又要非常安全,再加上能够快速地去推广应用,这是我们的既要又要且要。
从地平线来讲,我们认为采用一个端到端和交互博弈的解决方案,能够比较好地解决scale out和scale up的难题。我们采用了“三网合一”的端到端大模型,在这个大模型里面它能够把传感器的数据和地图和导航信息输入大模型进行训练。在这个模型里面它通过不丢失信息的情况下对周边世界进行更好的感知,通过动静态的推理还有数据的训练,能够产生出动静态目标。除此之外还能够输出一个机器能读懂的高维特征级信息,给到下一个模块,也就是交互博弈模块。这个模块有两个部分组成:一个是神经网络的模块,再一个是基于Rule-based的模块。神经网络能够提高整个系统上限,同时基于Rule-based的模块可以做好安全兜底,确保系统下限。
通过“三网合一”端到端,再加上交互博弈架构和算法,能够比较好的解决scale out和scale up。
地平线作为一家软件算法基因出身的公司,我们首先考虑问题还是从软件的方面考虑怎么解决自动驾驶的问题。在过去九年当中,地平线在创新技术方面也有很多的积累,在这里给大家做几个分享。
2022年地平线提出了Sparse4D的架构,它是行业比较领先的高性能,高效率,长时序、纯稀疏融合感知架构,它通过长时序纯稀疏还有端到端很好解决了之前或者现在用的BEV+Transformer架构里面的感知范围和精度以及与计算效率的矛盾,打造了一个比较好的端到端的感知基座。同时它在各方面的性能表现都远好于其他的架构,特别是在nuScenes公开数据集排行榜第一。所以它是接棒“BEV+Transformer”的下一代架构。通过和BEVFormer的对比,可以看到在夜间城区密集人群的精准感知、远距离及时感知的场景下,Sparse4D的感知结果都更精准。
另外地平线学者在2022年底的时候发表了一篇自动驾驶大模型UniAD的文章,也是首次实现了整体框架下的端到端训练。在9000多篇论文里面获得了去年计算机视觉和模式识别CVPR大会的最佳论文,这也是第一次自动驾驶领域的文章在CVPR年会上获得最佳论文。
UniAD它首次将检测、跟踪、建图、轨迹预测、占据网格预测以及规划整合到一个基于Transformer框架里面的大模型里面,实现感知的一体化,它相对于黑盒的我们讲的端到端,它更可控、可解释、可拓展,是一个比较好的架构。它在NuScenes数据集上获得了SOTA (state of the art),评测结果最优。同时,我们这个算法也在业界作为一个Benchmark,当下产业界的很多端到端都有受UniAD启发开启端到端的上车应用,学术与科研界也以UniAD作为标杆去benchmark。
除此之外,同时地平线还采用了模仿强化混合学习技术,在这方面进行深度创新和积累,使得整个自动驾驶更拟人、更安全。
基于模仿的开环学习方式不能很好的解决长尾问题。交互式的规控学习采用混合强化学习方式,一方面通过模仿学习提高学习效率,另一方面通过闭环强化学习克服模仿学习在长尾等方面存在的缺陷,可以很好地解决长尾问题。这样使得整个交互博弈当中能够更好的进行跟周边的交互,同时实现更好的拟人性,整个安全性和舒适度都得到了很大的提升。
那么再好的算法如果没有相应的芯片来承载,实际上是无法变成产品的。所以接下来我就介绍一下地平线在硬件、技术和产品方面的最新的一些结果。
这个是地平线2016年提出来一个“智能计算的新摩尔定律”。这个为我们地平线也是为其他行业的同仁提供了一个芯片设计和性能提升的方向,定义智能计算最优解。新摩尔定律的公式也很简单,是一个简单的乘法。就是说我把单位成本下的计算性能作为目标,把这个目标分解成三个因子:
第一个因子就是大家耳熟能详的TOPS per dollar,花每块钱能买多少算力,这是经典的理论峰值计算效率,通常来讲要靠两件事情来做到,第一个就是摩尔定律,第二就是创新型的硬件架构设计;
第二个指标是叫Utilization rate(有效利用率),有了计算资源,怎么样充分利用?涉及到编译器、Runtime等等软件和硬件的协同优化,充分提升计算利用率;
第三是算法效率。每TOPS算力上能实现的算法效率,这取决于算法先进性来实现计算效率提升。
可以说,地平线“三项全能”——在硬件的架构、软件中间层的优化、算法的创新上,都聚焦于软硬协同,永远以更低的成本去获得更高的计算性能。
前面讲了我们在算法上有很多的积累,这些积累就是指导我们去设计我们的硬件架构。
这体现在这几个方面,一个是通过三级存储架构,多脉动的立方加速引擎,还有多项数据流动等等来减少核内核间以及片间的数据的流动,提高它的使用率,同时降低对带宽的占用。另外通过虚拟化,数据变换引擎等等这些,来支持先进的算子和加速计算。同时通过所有这些优化,大大降低对计算的功耗,也使得我们整个芯片的性能能够保持在一个非常好的水平。
软硬结合,超越摩尔定律。我们再来看一下“新摩尔定律”带来性能的提升,左边是传统的摩尔定律,在6年可以看到它的性能提升16倍。基于软硬结合的“新摩尔定律”,我们BPU的计算性能对于传统主流的CNN神经网络它在6年里面提升了246倍。对于现在的Transformer来讲,在三年里面提升了27倍。实际上我们通过软件和硬件的优化,远超摩尔定律提升的速度。
总结一下,我们用软硬结合的技术实力推动智能驾驶从“可用”到“好用”最后到“爱用”。最主要的是通过端到端的技术,通过深度学习人类的驾驶行为和拟人的体验带来心理安全,更加拟人、更像老司机。通过交互博弈,通过举一反三处理极限的场景,更好的适应客观世界的复杂性,能够做到每时每刻。
再就是通过我们产品BPU,我们的芯片,提升它的性能,同时降低成本,来使得我们的高阶自动驾驶更快的普及到我们每个驾驶员,使得每个人都可以用得起。
接下来我再把通过我们技术的积累,最新的产品给大家做一个介绍。今年四月份我们发布了两款产品,一个是硬件产品,一个是软件产品。硬件产品就是征程6系列,相对于之前的三代产品征程2、征程3、征程5都是单芯片,征程6是一个家族,总共有6款芯片,主要覆盖低中高阶智能驾驶应用。所以在整个智能驾驶的应用当中,总有一款芯片适合我们的合作伙伴,它带来的好处是基于同样的开发环境、开发工具链能够大大提升我们合作伙伴的开发效率,同时降低开发成本,能够加速整个自动驾驶的应用落地。
再一个我们发布了第二个产品,我们叫做Horizon SuperDrive,这个是全场景智能驾驶解决方案,我们希望基于我们的软件、算法研究还有我们最新芯片的基础上打造一个“样板间”,充分展现在技术上限上,自动驾驶能够解决什么样的问题,能够怎么样更好的来解决我们目前遇到的很多困难的场景。通过我们三网合一端到端的技术,还有交互博弈,还有征程6的芯片,我们追求的是像老司机一样优雅和从容的驾驶。它会覆盖全场景,包括城区、高速和泊车产品,实现全场景无差别的高阶智驾。
下面看一下我们的SuperDrive在复杂场景里面的表现,左上角是交通很拥堵的时候换道,是我们自车和其他汽车的博弈,我们的系统实在过不去会让一下,如果有缝就会很自信的插进去。
第二个是路口的左转交互博弈,大家可以看到车流量很大,这个场景化左边的车实际上很多,这个时候要见缝插针能够转过去,没有一定的技术的上限,没有这种自信,你是没有办法在这个情况下进行左转的。
右边是一个城区,城市里面的一个环岛,这个里面也是非常复杂的场景,它有反向的车、也有人,有一些场景你是没有办法第一时间看到,这个时候需要车跟路上的博弈,跟路边的行人、车辆等等博弈。
左下是在拥堵路况下,精准搜索汇入空挡,高效安全博弈,成功汇入主路。
右下是礼让行人,需要比较笃定能够自信开的时候,它能够去博弈,需要谦让的时候必须要礼让行人和其他的道路的使用者。
目前在过去的九年里面,我们的产品也得到了主机厂的认可,目前我们跟100多个合作伙伴一起服务20多家主机厂。目前我们有差不多230多个量产开发项目,有110多款车型已经量产。目前我们已经出货了500万片芯片给客户,也积累了百亿公里的驾驶里程,为客户提供安全的驾驶体验。
地平线是坚定的定位Tier2,我们还是希望携手行业所有的伙伴一起,来推动自动驾驶向高而行,通过我们的硬件和算法赋能我们的合作伙伴,与我们的合作伙伴一起,共同让自动驾驶可用、好用,使我们的用户更爱用。
最后,地平线希望跟我们的合作伙伴一起。征程与共,开放共赢!
我的分享就到这里,谢谢大家!