历史上的今天
返回首页

历史上的今天

今天是:2024年12月17日(星期二)

正在发生

2021年12月17日 | 凭什么比人眼更精准?特斯拉视觉方案详解

2021-12-17 来源:第一电动

12月10日,特斯拉在北京举办了以“自动驾驶的‘仿生大脑’”为主题的“T-talk”线下分享讨论会。特斯拉主要讲解了目前AI技术的最新进展,包括特斯拉如何以纯视觉方案实现精准的自动驾驶能力,带来比雷达+视觉的融合方案更加安全可靠的体验,以及独特的智能算法等独家内容,带领参与者们深入了解了特斯拉在自动驾驶领域的探索。


坚持视觉感知 用AI神经网络技术提升辅助驾驶能力


如图1所示,Andrej说:“我们希望能够打造一个类似动物视觉皮层的神经网络连接,模拟大脑信息输入和输出的过程。就像光线进入到视网膜当中,我们希望通过摄像头来模拟这个过程。”

图片1.png?imageView2/2/w/550

摄像头模拟人类图像处理流程示意


多任务学习神经网络架构HydraNets,通过一个主干网络处理8个摄像头传入进来的原始数据,利用RegNet残差网络和BiFPN算法模型统一处理,得出不同精度下的各类型图像特征,供给不同需求类型的神经网络任务所用。

图片2.png?imageView2/2/w/550

多任务学习神经网络架构HydraNets


不过由于该结构处理的是单个摄像头的单帧图片画面,在实际应用时候遇到很多瓶颈;于是在次结构之上加入了Transformer神经网络结构,使得原本提取的二维的图像特征,变为了多个摄像头拼合起来的三维向量空间的特征,从而大大提升了识别率和精准度。


还没完,由于仍是单帧的画面,所以还需要时间维度和空间维度,以让车辆拥有特征“记忆”功能,用于应对“遮挡”、“路牌”等多种场景,最终实现以视频流的形式,将行驶环境的特征提取出来,形成向量空间,让车辆能够精准、低延迟地判断周围环境,形成4D向量空间,这些视频形式特征的数据库为训练自动驾驶所用。

图片3.png?imageView2/2/w/550

视频化4D向量空间的神经网络架构


不过由于城市自动驾驶与高速自动驾驶不同,车辆规划模块有两大难题,其一是行车方案不一定有最优解,其局部最优解会很多,也就意味着同样的驾驶环境,自动驾驶可以选择很多种可能的解决方案,并且都是好的方案;其二是维度较高,车辆不仅需要做出当下的反应,还需要为接下来的一段时间做好规划,估算出位置空间、速度、加速度等诸多信息。


所以特斯拉选择两个途径解决规划模块这两大难题,一个是用离散搜索方式解决局部最优解的“答案”,以每1.5毫秒2500次搜索的超高效率执行;另一个是用连续函数优化来解决高维度问题。通过离散搜索方式先得出一个全局最优解,然后利用连续函数优化来平衡多个维度的诉求,例如舒适型、平顺性等,得出最终的规划路径。


此外,除了要为自己做规划,还要“估算”和猜测其他物体的规划,即用同样的方式,基于对其他物体的识别以及基础的速度、加速度等参数,然后替其他车辆规划路径,并以此应对。


不过全球各地的道路状况千变万化,非常复杂,如果采用离散搜索的方式会消耗大量资源,并且使得决策时间过长,所以选择了深度神经网络结合蒙地卡罗搜索树的方式,大大提高的决策效率,几乎是数量级的差距。

图片22.png?imageView2/2/w/550

不同方式下的效率


最终规划模块的整体架构如图5,先基于纯视觉方案的架构将数据处理为4D向量空间,然后基于之前得到的物体识别以及共享的特征数据,再利用深度神经网络寻找全局最优解,最终规划结果交给执行机构执行。

图片5.png?imageView2/2/w/550

视觉识别+规划、执行整体架构


当然,再好的神经网络架构和处理办法,都离不开一个有效且庞大的数据库。在数据从2D向3D、4D转换过程中,约1000多人的人工标注团队也在与时俱进在4D空间上进行标注,并且仅需在向量空间中标注后,会自动映射入不同摄像头的具体单个画面中,大大增加的数据标注量,但这些还远远不够,人工标注的数据量远远喂不饱自动驾驶所需的训练量。

图片6.png?imageView2/2/w/550

4D向量空间中人工标注的演示


由于人更擅长语义识别,而计算机更加擅长与几何、三角化、跟踪、重建等,所以特斯拉想要创造一个人和计算机“和谐分工”共同标注的模式。


特斯拉搭建了一个庞大的自动标注流水线,用45秒-1分的视频,包括大量传感器数据,交给神经网络离线学习,然后利用大量机器和人工智能算法生成可以用于训练网络的标注数据集。

图片7.png?imageView2/2/w/550

视频片段自动标注处理流程


对与可行驶区域例如道路、道线、十字路口等的识别,特斯拉使用了NeRF“神经辐射场”,即一种2D向3D转化的图像处理算法,给出既定的XY坐标点数据,让神经网络预测地面的高度,由此生成无数的XYZ坐标点,以及各种语义,例如路边、车道线、路面等,形成大量的信息点,并反向投射到摄像头画面中;然后将其道路数据和之前神经网络识别出来的画面分割结果进行比较,并整体优化所有摄像头的图像;同时结合时间维度和空间维度,创建出较为完善的重建场景。

图片8.png?imageView2/2/w/550

重建道路的演示


利用此技术将不同车辆经过同一地点所重建的道路信息,进行交叉比对,他们必须在所有位置点信息一致对的上,才为预测正确,这样共同作用下,形成了一种有效的道路表面的标注方法。

图片9.png?imageView2/2/w/550

多视频数据标注重叠互相校验


这与高精地图完全不一样,所有的视频片段所产生的标注信息只要越来越精确精准,标注信息和视频里实际道路情况相符,就不必再维护这些数据。


同时利用这些技术,还可以对静态的物体进行识别和重建,并且有纹理、没纹理都可以根据这些3D信息点做出标注;这些标注点对于摄像头识别任意障碍物都非常有用。

图片10.png?imageView2/2/w/550

静态物体的3D信息点重建


采用离线处理这些数据和标注的另一个好处是,单车网络每次只能对其他运动事物进行预测,而离线由于数据既定行,可以通晓过去和未来,就能依照确定的数据,忽视遮挡与否,对所有的物体的速度、加速度进行预测和校准优化,并标注,训练网络后来更准确判断其他运动事物,便于规划模块进行规划。

图片11.png?imageView2/2/w/550

离线对车辆、行人的速度、加速度校对和标注


然后将这些结合起来,就形成了对视频数据中,所有道路相关、静动态物体的识别、预判和重建,并对其动力学数据标注。

图片12.png?imageView2/2/w/550

视频片段对周围环境的重建和标注


这样的视频数据标注将成为训练自动驾驶神经网络的核心部分。其中一个项目就是在3个月内,利用这些数据训练网络,成功实现了毫米波雷达所有功能并且更加准确,所以去掉了毫米波雷达。

图片13.png?imageView2/2/w/550

摄像头几乎无法看到情况下,对速度和距离的判断依然精准


验证了这种方式的高度有效,那么就需要海量的视频数据来训练。所以同时,特斯拉还开发了“仿真场景技术”,可以模拟现实中不太常见的“边缘场景”用于自动驾驶培训。如图4所示,在仿真场景中,特斯拉工程师可以提供不同的环境以及其他参数(障碍物、碰撞、舒适度等),极大提升了训练效率。

图片14.png?imageView2/2/w/550

仿真场景


特斯拉利用仿真模式训练网络,已经用了3亿张图像和50亿个标注来训练网络,接下来还会利用该模式继续解决更多的难题。

图片15.png?imageView2/2/w/550

仿真模式带来的提升和未来几个月预期


综上,如果要更快速提升自动驾驶网络的能力,需要处理海量的视频片段以及运算。举个简单的例子,为了拿掉毫米波雷达,就处理了250万个视频片段,生成了超过100亿个标注;而这些,让硬件越来越成为发展速度的瓶颈。


之前特斯拉使用的是一组约3000块GPU、稍低于20000个CPU的训练硬件,并为了仿真还加入了2000多台FSD计算机;后来发展到10000块GPU组成的世界排名第五的超级计算机,但是即便如此,还是远远不够。

图片16.png?imageView2/2/w/550

目前在使用的超级计算机参数和变化


所以特斯拉决定自己研制超级计算机。


“工程学的创举”——D1芯片与Dojo超级计算机


当下,随着所需处理的数据开始指数级增长,特斯拉也在提高训练神经网络的算力,因此,便有了特斯拉Dojo超级计算机。


特斯拉的目标是实现人工智能训练的超高算力,处理大型复杂的神经网络模式、同时还要扩展带宽、减少延迟、节省成本。这就要求Dojo超级计算机的布局,要实现空间和时间的最佳平衡。


如图所示,组成Dojo超级计算机的关键单元是特斯拉自主研发的神经网络训练芯片——D1芯片。D1芯片采用分布式结构和7纳米工艺,搭载500亿个晶体管、354个训练节点,仅内部的电路就长达17.7公里,实现了超强算力和超高带宽。

图片17.png?imageView2/2/w/550

D1芯片技术参数

图片18.png?imageView2/2/w/550

D1芯片现场展示


如图所示,Dojo超级计算机的单个训练模块由25个D1芯片组成。由于每个D1芯片之间都是无缝连接在一起,相邻芯片之间的延迟极低,训练模块最大程度上实现了带宽的保留,配合特斯拉自创的高带宽、低延迟的连接器;在不到1立方英尺的体积下,算力高达9PFLOPs(9千万亿次),I/O带宽高达36TB/s。

图片19.png?imageView2/2/w/550

D1芯片组成的训练模块

图片20.png?imageView2/2/w/550

训练模块现场展示


得益于训练模块的独立运行能力和无限链接能力,由其组成的Dojo超级计算机的性能拓展在理论上无上限,是个不折不扣的“性能野兽”。如图9所示,实际应用中,特斯拉将以120个训练模块组装成ExaPOD,它是世界上首屈一指的人工智能训练计算机。与业内其他产品相比,同成本下它的性能提升4倍,同能耗下性能提高1.3倍,占用空间节省5倍。

图片21.png?imageView2/2/w/550

训练模块组合成ExaPOD


与强大硬件相匹配的,是特斯拉针对性开发的分布式系统——DPU(Dojo Processing Unit)。DPU是一个可视化交互软件,可以随时根据要求调整规模,高效地处理和计算,进行数据建模、存储分配、优化布局、分区拓展等任务。


不久后,特斯拉即将开始Dojo超级计算机的首批组装,并从整个超级计算机到芯片、系统,进行更进一步的完善。对于人工智能技术,马斯克显然还有更远大的追求。这种追求,寄托在他开场白中“我们遭遇了一点技术问题,希望以后可以用AI来解决”的调侃,更在于活动结尾时他许下的“我们会进一步在整个人类世界里畅游”的承诺。



推荐阅读

史海拾趣

Conxall公司的发展小趣事

随着科技的飞速发展,物联网成为了新的热点。Conxall公司敏锐地捕捉到了这一机遇,投入大量资源进行物联网技术的研发。经过数年的努力,公司成功推出了一款具有高度集成和智能化特点的物联网模块,广泛应用于智能家居、智慧城市等领域,为公司的快速发展奠定了坚实的基础。

Analytic Instruments Corp公司的发展小趣事

为了确保产品质量的稳定性和可靠性,Analytic Instruments Corp不断完善质量管理体系。公司引进了先进的生产设备和检测仪器,建立了严格的质量控制流程。同时,公司还加强了员工的培训和管理,提高了员工的质量意识和操作技能。这些举措使得公司的产品质量得到了客户的高度认可,进一步巩固了市场地位。

HOPERF公司的发展小趣事

成立于1998年的HOPERF,最初是一家专注于无线射频技术的小型创业公司。在那个通信技术日新月异的时代,公司创始人凭借敏锐的市场洞察力和对技术的执着追求,带领团队开始了自主研发之路。初期,HOPERF在无线射频领域不断突破,成功研发出多款具有自主知识产权的射频芯片,为公司的后续发展奠定了坚实的基础。这些技术创新不仅提升了产品的性能,还大大降低了成本,使得HOPERF在竞争激烈的市场中逐渐站稳脚跟。

EXCELSEMI [ EXCEL SEMICONDUCTOR INC. ]公司的发展小趣事

EXCELSEMI公司始终将品质和客户满意度放在首位。公司建立了一套完善的质量管理体系和客户服务体系,确保每一款产品都符合高标准的质量要求。同时,公司还注重与客户的沟通和反馈,不断优化产品和服务以满足客户的需求。这种品质至上、客户为本的经营理念使得EXCELSEMI在市场中赢得了良好的口碑和信任。

Brite-Led Optoelectronics Inc公司的发展小趣事

面对电子行业的快速变化和不断升级的技术需求,Brite-Led始终保持敏锐的洞察力和创新精神。公司不断投入研发资源,推出新产品和新技术,以满足市场的变化和客户的需求。同时,公司还注重人才培养和引进,建立了一支高素质的研发团队和管理团队。这些措施使得Brite-Led在激烈的市场竞争中始终保持领先地位,实现了持续发展。

以上是关于Brite-Led Optoelectronics Inc公司发展的5个虚构故事,虽然这些故事是基于虚构的,但它们可能反映了Brite-Led Optoelectronics Inc公司在实际发展中可能遇到的一些情况和挑战。

全智景(Allvision)公司的发展小趣事

在追求经济效益的同时,全智景公司也积极履行社会责任,致力于可持续发展。公司注重环保和节能技术的研发和应用,推出了多款绿色环保的产品。同时,全智景公司还积极参与社会公益事业,捐款捐物支持灾区重建和贫困地区的教育事业。这些举措不仅彰显了公司的社会责任感,也为公司的可持续发展奠定了坚实的基础。

通过以上五个故事,我们可以看到全智景公司在电子行业里的发展历程。从技术突破引领市场,到跨界合作拓展应用;从持续创新引领潮流,到全球化战略助力发展;再到履行社会责任与可持续发展。全智景公司以其坚定的信念和不懈的努力,在电子行业中取得了显著的成就。

问答坊 | AI 解惑

想学ARM,推荐个板子

本人从事单片机开发,想往嵌入式发展下,哪位给推荐个开发板,有想卖的二手的也成…

查看全部问答>

AT89C51控制DC电机

AT89C51控制DC电机: 1.转速可调 2.包括ADC转换:ADC0808 3.汇编语言…

查看全部问答>

万能的坛啊,看看这个是什么做的?

KF750按键的蓝光是多个圈圈层叠,触摸的时候有“涟漪”的效果。今天有个客户想在一个产品上把原来的普通按键做成这个效果,触摸的好处理,但这个发光的材料好像是EL片。坛子里有知道的朋友吗?多谢! …

查看全部问答>

初学8051,征询如何选择购买板子

  我是一名初学8051者 最近看过很多关于8051的原理书 对单片机的基本原理略懂一二 想动手做些实验 一方面想加强自己对汇编指令或者说编程的熟悉程度 另一方面想对单片机有更彻底的了解 会些基本的应用  不知道怎么去选择购买板 ...…

查看全部问答>

鼠年最后一张帖

在eeworld又度过了一年,学到了不少的东西,谢谢帮助过我的朋友,也谢谢顶帖的朋友!…

查看全部问答>

FL2440的板子,修改12M的晶体为16.9344M后,无法启动???

请教高手们:     原FL2440的开发板,晶体为12MHz,修改为16.9344M后,无法启动,不知何因?     先说一下FL2440的bootloader的组成:     飞凌开发板提供的bootloader由uboot和eboot两部分组成,前面的uboot实现 ...…

查看全部问答>

关于编译mame的问题

我在编译mamece3的时候出现如下错误 LINK : fatal error LNK1104: cannot open file \'subsystem:windowsce,4.00\' 请问高手如何解决这个问题,谢谢…

查看全部问答>

关于CASIOdt-930m51e的问题

谁有这个型号的编译器呀?找不到帮助文档!…

查看全部问答>

盐雾对材料腐蚀研究

盐雾对材料腐蚀研究腐蚀是材料或其性能在环境的作用下引起的破坏或变质。大多数的腐蚀发生在大气环境中,大气中含有氧气、湿度、温度变化和污染物等腐蚀成分和腐蚀因素。盐雾腐蚀就是一种常见和最有破坏性的大气腐蚀。这里讲的盐雾是指氯化物的 ...…

查看全部问答>

MSP430f4152无法烧写程序的问题

用IAR给MSP430f4152烧写程序,总提示找不到单片机。仿真器用的UIF。 出错信息是: IarIdePm The debugging session could not be started。 Either the debugger initialization failed,or else the file \"F:\\Examination\\E-Meter\\Debug\\ ...…

查看全部问答>