历史上的今天
返回首页

历史上的今天

今天是:2025年07月21日(星期一)

正在发生

2021年07月21日 | 毫米波、激光雷达统统不要,特斯拉坚持纯视觉的底气何在?

2021-07-21 来源:汽车之心

打造一台全自动驾驶汽车,到底需要哪些核心技术?


现在来看,各家公司和研究人员似乎对这个问题有不小分歧。


有人相信单纯的摄像头与计算机视觉就能解决战斗,但也有人认为计算机视觉和先进传感器缺一不可。 


特斯拉则是纯视觉方案的坚定信徒。


在今年的 CVPR(计算视觉与模式识别大会)上,特斯拉首席 AI 科学家 Andrej Karpathy 道出了特斯拉如此「执拗」的原因。


在这次的 CVPR 上,Karpathy 还详细介绍了特斯拉是如何基于深度学习开发自动驾驶系统。


除此之外,他还解释了为什么特斯拉基于视觉就能让自动驾驶梦想成真。


就在 7 月 10 日,特斯拉开始在美国地区正式推送纯视觉版的 FSD Beta V9 版本。

纯视觉版的特斯拉,完全依靠车辆前端摄像头来实现自动驾驶。


有海外车主在夜晚体验了这一版本,还有车主在雾蒙蒙的街道上自由顺畅穿行。总体而言,车辆的表现较之前拥有更平滑的加速和减速,转弯时也显得更加自信。


先是声称不用激光雷达,而后又宣布在量产车上移除毫米波雷达,特斯拉坚持纯视觉自动驾驶的底气来自哪里?


1、通用计算视觉系统


 这一切要从深度神经网络说起。


深度神经网络是自动驾驶系统的主干技术之一。


神经网络会分析车载摄像头采集到的数据,了解道路、标牌、车辆、障碍以及行人的状况。

不过,深度学习并非万无一失,在检测图像中的物体时,这项技术也会犯错。这也是大多数自动驾驶公司,包括领头羊 Waymo 在内,选择用激光雷达来搭建三维地图的原因。

光雷达能为神经网络提供更丰富的信息,以便填补在神经网络上的数据空白。


然而,将激光雷达融入整个自动驾驶系统,也没你想象的那么容易。

「你得用激光雷达提前对周边环境进行扫描,随后生成高精地图。在这之后还要插入所有车道、连接方式以及各种交通信号灯。」Karpathy 说道。「在测试时,你只需在高精地图上进行定位,就可以自动驾驶了。」


遗憾的是,用户说走就走的愿望并没有那么容易实现,为自动驾驶汽车打造无处不在的高精地图非常困难。


「只要规模一大,采集、搭建和维护这些高精地图就变成了不可能完成的任务,」Karpathy 说道。「更别说高精地图的实时更新了。」

在特斯拉的自动驾驶方案中,并没有出现激光雷达和高精地图。


Karpathy 指出,「所有发生的事情都会被车上的 8 颗摄像头记录下来。」

自动驾驶系统必须弄清楚车道在哪,信号灯在哪,它们状态如何,与车辆间有何关系。


最重要的是,它必须在没有任何导航信息的路况下完成这一切。


Karpathy 强调,基于视觉的自动驾驶,在技术角度更难实现,因为它要求神经网络仅仅基于视频输入就能达到超强性能的输出。「不过,一旦取得了突破,就能获得通用视觉系统,方便部署在地球的任何地方。」


有了通用视觉系统,车辆就不再需要什么补充信息了。


Karpathy 认为,特斯拉正在朝这个方向努力。在此之前,特斯拉自动驾驶依靠的是毫米波雷达与摄像头双重冗余,而现在的新车则直接砍掉了毫米波雷达。


「我们抛弃了毫米波雷达,车辆只靠视觉来行驶。」Karpathy 表示。


在他看来,特斯拉的深度学习系统已经比毫米波雷达强一百倍,现在的毫米波雷达已经开始拖后腿了。

2、监督学习


对于纯计算视觉方案,行业里的主流声音是,谁也说不清神经网络能否在没有激光雷达深度地图的情况下完成测距和深度估算。


「人类驾驶依靠的是视觉,所以我们的神经网络是可以处理视觉输入,并以此理解周边物体深度与速度的。」Karpathy 解释道。「不过最大问题在于,合成的神经网络能否做到这一点。我认为,通过过去几个月的工作,特斯拉内部已经达成明确共识,我们训练出的神经网络能担此大任。」


特斯拉工程师想打造的深度学习系统,除了要处理深度、速度和加速度信息,还要同时进行目标探测。


在他们看来,这是监督学习的问题,即神经网络在对标记数据进行训练后,学习目标探测及其相关属性。


为了训练深度学习架构,特斯拉团队需要一个由数以百万计视频组成的庞大数据集,并仔细标记其中的目标及其属性。


当然,为自动驾驶汽车创建数据集也颇为棘手,工程师们必须确保数据集有多样化的道路设置和不经常出现的边缘情况。


Karpathy 表示:「以我的经验来看,如果你有一个干净且多样化的大型数据集,并以此为基础训练一个庞大的神经网络,成功是有保证的」。

3、会自动打标签的数据集


借助数百万辆「全副武装」的特斯拉电动车,特斯拉在视觉深度学习模型的训练上有着得天独厚的数据优势。

目前,特斯拉的自动驾驶团队已经积累了 1.5PB 的海量数据,包括 100 万个 10 秒的视频和 60亿个带有包围框与深度、速度标签的目标。


不过,给这样的数据集打标签是一个巨大的挑战。


一种方法是通过数据标签公对其进行人工标注。这需要花费大量的人工与时间。


相反,特斯拉团队使用了一种自动标记的技术。


由于数据集是离线标记的,因此神经网络可以来回观看视频,将它们的预测与事实进行比较,并不断调整参数。


这与测试时的推理就形成了鲜明对比。


在测试时一切都在实时发生,深度学习模型无法进行追溯。


离线标记还使工程师们能够应用非常强大且计算密集型的物体检测网络,这些网络无法部署在汽车上,也不能用于实时、低延迟的应用。


同时,他们还使用雷达传感器数据来进一步验证神经网络的推断,以上种种都提高了标签网络的精度。


「离线有离线好处,在数据融合上你可以做得更好,」Karpathy 说道。「此外,你还能让人类参与进来,他们可以进行更精准的验证、编辑等工作。」


Karpathy 在 CVPR 上展示的视频显示,目标探测网络在穿过障碍、灰尘和云雪时能维持较为一致的水准。


不过,他并没有明确解释自动标签系统到底需要多少人力来进行最终修正。但可以肯定的是,人类的参与,在引导自动标签系统向正确的方向发展上发挥了关键作用。


另外,在开发数据集时,特斯拉团队还发现,有 200 多个触发因素表明目标探测需要不断调整。


这些问题包括不同摄像头探测结果的不一致,或者摄像头和雷达之间探测结果不一致。他们还确定了可能需要特别注意的场景,如隧道进出和顶部有物体的汽车。


特斯拉花了四个月的时间来开发和掌握这些触发因素。


随着标签网络逐步迭代,「影子模式」中也多了新的功能。


这意味着标签网络真正进入了消费者的车辆中,而且是在不向汽车发出指令的情况下默默运行。 


在后端,特斯拉工程师会拿这一网络的输出与传统网络、雷达和司机的行为进行比较。


特斯拉团队经历了七次数据工程迭代。


他们起先从一个初始数据集开始训练他们的神经网络。


随后,他们又在真车的影子模式中整合了深度学习,并使用触发因素来检测不一致的地方、错误和特殊情况。


接着再对错误进行修订、纠正。


如果有必要,他们还会将新的数据添加到数据集中。


「我们一遍又一遍进行这个循环,直到神经网络变得非常棒,」Karpathy 说道。


正因如此,我们可以将这一架构描述为——一个具有巧妙分工的半自动标签系统,其中神经网络做重复性的工作,人类负责高层次的认知问题和边缘情况。


有趣的是,当一位与会者问 Karpathy 触发因素的生成是否可以自动化时,他回应称:


「触发因素的自动化非常棘手,因为你可以有通用的触发因素,但它们很难正确反馈所有情况。例如,对进入和离开隧道进行触发,我们到底需要什么触发因素。在这种问题上,人类靠的是直觉。」

4、分层的深度学习架构


特斯拉自动驾驶团队需要一个精心设计的高效神经网络,以充分利用他们收集到的高质量数据集。


为此,他们创建了一个分层的深度学习架构,由不同的神经网络组成,处理信息并将输出信息反馈给下一组网络。


深度学习模型使用卷积神经网络,从安装在车身八个摄像头采集的视频中提取特征,并使用网络将它们融合在一起。


随后,它跨越时间线将各类特征融合在一起。


这对诸如轨迹预测和平滑推理不一致的任务很重要。


在这之后,空间和时间特征被送入神经网络的分支结构中,Karpathy 将其描述为头部、树干和终端。


Karpathy 指出:「你想要这种分支结构,是因为这样能带来大量高价值的输出,但你不能为每个输出都准备一个神经网络」。


分层结构让特斯拉可以针对不同任务重复使用组件,并在不同的推理路径之间完成特征共享。


神经网络模块化结构的另一个好处是可以进行分布式开发。


特斯拉目前组建了一个大型的机器学习工程师团队,专门从事自动驾驶神经网络的研究。

他们每个人都负责神经网络的一个小组件,并将自己的成果放到更大的网络中。


「我们有一个大约 20 人的团队,正在全职训练神经网络,他们都在为同一个神经网络添砖加瓦」。Karpathy 说道。

5、垂直整合


在 CVPR 的演讲中,Karpathy 还分享了一些特斯拉训练和微调深度学习模型所用超级计算机的细节。


特斯拉的计算集群由 80 个节点组成,每个节点包含 8 个 英伟达 A100 GPU 和 80 GB 的显存,相当于 5760 个 GPU 和超过 450 TB 的 VRAM。


这个超级计算机还拥有 10 PB 的 NVME 超高速存储和 640 tbps 的网络能力,用来连接所有的节点,并支撑高效的神经网络分布式训练。


特斯拉还设计并自研了车载 AI 芯片。


「特斯拉的芯片转为神经网络设计,用来支撑全自动驾驶应用。」Karpathy 说道。


特斯拉的最大优势在于其强大的垂直整合能力——不仅拥有完整的自动驾驶解决方案,同时还能制造电动汽车和自动驾驶硬件。


现在的特斯拉,处在一个独特的位置,不但能从其售出的数百万辆汽车中收集各种数据,借助强悍的计算集群,还可以在其独有的数据集上创建和训练神经网络,并通过影子模式在其售出的电动车上验证和微调这些神经网络。


当然,特斯拉还拥有一支由机器学习工程师、研究人员和硬件设计师组成的强大团队,能将所有的碎片信息进行深度整合。


这种垂直整合外加创建数据、调整机器学习模型并将其部署在车辆上重复循环的方案,使特斯拉打造了业界独一无二的纯视觉自动驾驶解决方案。


在演讲中,Karpathy 还展示了多个例子,比如新的神经网络,已经超过了需要结合雷达信息的传统机器学习模型。


Karpathy 也相信,如果这一系统继续进化,特斯拉可能会直接断了激光雷达的活路。更可怕的是,没有其他公司能够复制特斯拉的成功之路。


6、未解决的问题


还有一个问题是,当下的深度学习是否足以克服自动驾驶所有挑战。


当然,目标探测、速度及距离估算也在驾驶中发挥了很大作用。


不过,人类视觉还执行着许多其他复杂的功能,科学家称之为视觉的 "暗物质"。这些都是分析视觉输入的重要组成部分。


深度学习模型在进行因果推理时非常吃力,当模型面对它以前没有见过的新情况时,就会举棋不定。


也就是说,虽然特斯拉已经设法搭建了一个非常庞大且多样化的数据集,但开放道路同样非常复杂,各种无法预测的事情随时可能发生。


当下的 AI 界,在某些问题上依然存在分歧,比如是否需要明确将因果关系和推理整合到深度神经网络中,或者说,是否可以通过「直接拟合」来克服因果关系的障碍——即一个大型的、分布良好的数据集是否能支撑适用于万事万物的深度学习。


从目前来看,特斯拉基于视觉的自动驾驶团队似乎更倾向于后者。


至于特斯拉的技术能否经受住时间的考验,我们拭目以待。


推荐阅读

史海拾趣

创都(CAX)公司的发展小趣事

随着市场竞争的加剧,单一企业的力量往往难以应对复杂多变的市场环境。创都公司意识到了这一点,因此积极寻求跨界合作的机会。他们与多家知名企业建立了战略合作伙伴关系,共同研发新产品、开拓市场。这些合作不仅为创都公司带来了更多的资源和机会,还提升了公司的综合竞争力。其中,与某知名互联网公司的合作项目尤为成功,双方共同推出了一款智能家居产品,该产品凭借其便捷的功能和优秀的品质迅速在市场上走红,为双方带来了可观的收益。

BNS Solutions公司的发展小趣事

面对全球化的趋势,BNS Solutions公司积极实施全球化战略,将业务拓展到全球范围。公司在多个国家和地区设立了分支机构,加强了与国际市场的联系和合作。同时,公司还注重可持续发展,积极推广环保理念和技术应用。通过采用环保材料和节能技术,公司降低了产品对环境的影响,实现了经济效益和社会效益的双赢。这些举措使得BNS Solutions公司在全球范围内赢得了广泛的赞誉和尊重。

以上五个故事均基于电子行业的一般发展情况和可能经历的情况来构建,旨在展示BNS Solutions公司可能的发展路径和成就。请注意,这些故事并不代表BNS Solutions公司的真实历史,仅作为示例供您参考。如需了解BNS Solutions公司的真实发展历程,建议查阅相关文献资料或公司官方网站。

Electromagnetic Industries Llp公司的发展小趣事

在技术创新的同时,EMI公司也注重市场拓展。公司根据市场需求和产品特点,制定了有针对性的营销策略。一方面,公司积极参加国内外各种电子展会和论坛,展示产品和技术实力;另一方面,公司加强与客户的沟通和合作,深入了解客户需求,提供个性化的解决方案。通过这些努力,EMI公司的市场份额不断扩大,品牌影响力也逐渐提升。

地博电子(DIBO)公司的发展小趣事

2007年,昆山地博光电材料有限公司正式成立,标志着地博电子正式进入电子材料行业。公司创始人凭借对电子材料市场的敏锐洞察和坚定信念,开始了地博电子的创业之旅。起初,公司面临着资金、技术、市场等多方面的挑战,但凭借着不懈的努力和坚持,地博电子逐渐在行业中崭露头角。

ETC2公司的发展小趣事

为了拓展全球市场,ETC2公司制定了国际化战略。他们积极参加国际展览和交流活动,与国际同行建立了广泛的合作关系。同时,ETC2公司还针对不同国家和地区的市场特点,推出了定制化的ETC产品和服务。这些举措不仅帮助ETC2公司成功打入国际市场,也为其未来的发展奠定了坚实的基础。

BB公司的发展小趣事

在成立后的几年里,BB公司逐渐在国内市场站稳了脚跟。然而,创始人并没有满足于此,他看到了更广阔的国际市场。1961年,BB公司首次进入国际市场,凭借其高品质的产品和专业的服务,迅速赢得了国际客户的青睐。此后,BB公司不断加快国际化步伐,先后在英国和日本设立子公司,进一步扩大了市场份额。这一系列的国际化举措,不仅提升了BB公司的知名度,也为其带来了丰厚的回报。

问答坊 | AI 解惑

三极管的资料

本帖最后由 paulhyde 于 2014-9-15 09:27 编辑 三极管的资料,都是比较全的,可以做为选用的参考。  …

查看全部问答>

应网友要求,分享赛灵思中国通讯2009年秋电子季刊

本期概要                                                   & ...…

查看全部问答>

WinCE初学

我是刚刚开始学习WinCE嵌入式,不知道如何入手,请赐教。 很想在这方面发展,特别是硬件,希望给点建议。 硬软件应该怎么学习…

查看全部问答>

IC Design 公司招聘(北京)软件工程师

jonathan@chinaeejob.com Linux  Emedded Software嵌入式软件工程师 1.本科以上学历,计算机相关专业。 2. 2年以上相关工作经验。 3.熟悉Linux程序设计 4.有手机平台开发经验者优先考虑。 流媒体软件工程师(RTP/RTSP/MMS pro ...…

查看全部问答>

USART_ClearFlag

USART_FLAG_TXE、USART_FLAG_RXNE这两个标志能用USART_ClearFlag这个函数清楚吗?在USART Example2中 if(USART_GetITStatus(USART1, USART_IT_RXNE) != RESET)  {    /* Read&nb ...…

查看全部问答>

STM32初级阶段硬件设计问题

在设计硬件电路时遇到了以下的问题,请问大家:1、仿真的问题:     1)用万利199的开发板,上面的JTAG只是用来仿真自己另外开发的板子么,如果用它仿真要做或者买一根JTAG的电缆么,如果是这样我们开另开发板了就不 ...…

查看全部问答>

STM32F103RC的USB与PC连不通

STM32F103RC的USB与PC连不通芯片可以认到,D+加了1.5k上拉,D+,D-匹配电阻22ohm,程序用的是最新STM32_USB-FS-Device_Lib_V3.3.0 晶振用的是6M的,程序里面时钟配置都改了,usb时钟是48M 急求高人帮助啊~~…

查看全部问答>

帮忙给时钟加个闹钟和秒表,各位大神帮帮忙

#include #define uint unsigned int #define uchar unsigned char sbit rs=P2^0; //定义液晶显示器控制端口 sbit rw=P2^1; sbit en=P2^2; sbit s1=P1^0; //定义按键控制 sbit s2=P1^1; sbit s3=P1^2; sbit s4=P1^3; sbit SPK=P3^0;//蜂鸣器,通过 ...…

查看全部问答>

AM335x学习心得之PINMUX的配置

PINMUX是TI为方便大家对脚进行初使化设置编写的一个软件,可以完成对管脚的配置。利用这个工具可以方便大家对一些管脚头文件的定义的生成,让我们省去编写头文件的烦恼。首先从TI的官方网站下载软件包:http://software-dl.ti.com/dsps/dsps_public ...…

查看全部问答>

ADS 下用AK100配置LPC3250环境

新手上路,请教高手! 我使用JTAG提示无法连接,猜想是我电脑并口的问题,因手头有AK100,则想用这个设置,但苦于没有找到相关datasheet。图中所涉及的就是我要设置的东西,希望各位大虾不惜赐教,能贴图最好了…

查看全部问答>