历史上的今天
返回首页

历史上的今天

今天是:2024年12月06日(星期五)

正在发生

2019年12月06日 | 浅析自动贴标,特斯拉用人类驾驶行为训练 Autopilot

2019-12-06 来源:42号车库

据外媒报道,贴标(labeling)将助力机器学习的运行。单个标签能向人工神经元网络说明给定输入信息的正确输出值。


举个例子,视频中空闲车道的像素会被贴上「自由空间/可用空间」的标签。与车辆、行人、人行道、交通锥标、障碍物等所对应的像素则不得被标记为「自由空间/可用空间」。鉴于有足量的标签示例,神经元网络非常善于学习与路面及障碍物相对应的像素图形种类。


在展示的一段新视频中,经训练的神经元网络可给出正确的输出结果,使得自动驾驶车辆能够了解哪些地方可实现自动驾驶车辆的安全行驶,哪些地方则无法做到这一点。


默认的视频贴标实现方式是聘用相关人员来对视频像素内容进行人工贴标工作,然而,该方式代价太高昂了,因为手动贴标非常耗时,而所需标记数据的数量十分巨大。若我们有其他方式完成数据贴标,会怎样做呢?


通用高管阐述自动贴标理念


事实证明,我们已经找到了替代性方案。通用旗下的自动驾驶汽车子公司——Cruise 的总裁兼首席技术官 Kyle Vogt 最近简述了其基本理念:


我们如今所做的工作,更多的是自动贴标。我的意思是,基本上,要将人工贴标(human labeling)从工作回路中剔除掉。


真正让我感到有意思的是,我们可以从车辆驾驶方式中推断出很多内容。若车辆驾驶未曾出现过任何错误,那么就能从中推断出车辆驾驶中所暗含的正确(操作)事项。当自动驾驶车辆能够在大体上保持驾驶操作的正确性,车内的乘客就会说「你干得不错啊!」对于我个人而言,这意味着车辆需要获得非常丰富的信息源。


沃格特继续说道:「若您是公司方,且您的业务模式仍依赖于数据的人工贴标,那么您公司将被某些竞争对手的公司碾压,因为后者正在思考应如何采用新方式来重新梳理数据贴标,确保其不必为了这类数据标签耗费太多精力或直接剔除工作回路中的人工贴标环节。」


那么,若采用人工驾驶习惯来完成对「自由空间/可用空间」的自动贴标呢?在 2018 年发布的一篇论文中,计算机视觉研究人员(含两名印第安纳大学的研究人员)作出了探索尝试。


人类驾驶员很少会撞上障碍物,他(她)们几乎始终在空闲车道行驶。因此,人工驾驶可被用作「自由空间/可用空间」的(自动)贴标途径。研究人员将这类自动贴标与视线中可看到的「自由空间/可用空间」推定相结合。此外,该方法的自动贴标技术精度达到了手动贴标方式精度的 98%。


特斯拉在自动贴标领域的优势


特斯拉自今年初开始公开强调自动贴标的重要性,埃隆马斯克在今年 2 月份的采访中表示:「我们开始使用自动贴标方式,效果确实比人工贴标要好。就我个人而言,当驾驶员将车辆驶向十字路口时,该操作行为在训练 Autopilot,告知其在遇到十字路口时所需完成的操作。」


在今年 4 月的「自动驾驶日」(Autonomy Day)特斯拉人工智能部门的高级主管 Andrej Karpathy 反复探讨特斯拉是如何使用自动贴标的。


我们不妨回顾下今年 2 月特斯拉 Autopilot 团队发布的岗位说明,特斯拉当时在寻找应聘人员,要求后者能够设计新方法,从而使用可轻松标记好(lightly labeled)的海量贴标数据。


这类对「自由空间/可用空间」的自动贴标似乎与特斯拉的惯用做法非常契合。相较于前文所提及的研究人员,特斯拉所能接触到的数据量更加丰富。举个例子,特斯拉能够探查到急刹车及车辆碰撞的其他标志。从理论上讲,该方法或许还能清除特斯拉车辆未进入「自由空间/可用空间」的那些示例。


特斯拉的数据不但丰富,还非常充裕。


截止至今年底,特斯拉将拥有近 70 万辆配有环视摄像头的特斯拉车辆在路面上行驶,其车辆搭载了第二代或第三代车载计算机。


这类车辆的月平均行驶里程数逾 1000 英里/辆(约合 1609.3 公里/辆),而这类的总行驶里程数逾 7 亿英里/月(约合 11.27 亿公里/月)。


相较之下,Waymo 车队只有 600 辆自动驾驶车辆,这是全球最大的自动驾驶路测车队。在美国,将所有公司的自动驾驶测试车辆汇总后,其总数才不过近 1400 辆。即便这 1400 辆自动驾驶测试车辆全天候无停歇地行驶,且平均车速保持在 70 英里/小时(约合 112.65 公里/小时),每月的测试里程总数也只有近 7000 万英里(约合 1.127 亿公里)。


怀疑论者恰巧指出,若特斯拉对其车队所采集的视频数据进行手动贴标,细化到「每英里」这一层级,从经济角度看,手动贴标并不具有可行性。然而,自动贴标有望完成更高大数量的数据标贴工作。


百度的研究使得我们对神经元网络精度等级与贴标训练数据间的关联性有了大致的了解。在对图像内的多个目标物进行分类时,当各指令所对应的贴标训练示例的数量呈倍数增长时,其精度大致能翻番。因此,当上述数据量翻十倍,精度翻两倍。当数量翻百倍,精度翻四倍,当数据量翻千(10 的三次方)倍,精度翻八( 2 的三次方)倍,以此类推。(当数据量翻 10 的 X 次方倍,精度则翻 2 的 X 次方倍)。


而对「自由空间/可用空间」识别的增长速率可能更高。


对「自由空间/可用空间」的识别工作属于二进制,一个像素,要么对应「自由空间/可用空间」,要么对应「非自由空间/非可用空间」。相较之下,百度更关注如何从上千种可能性中挑选出正确的目标物类别。这类测试的精度标准更显宽容性,若能将其正确地归入到五大猜测类型中,神经元网络就会视其为正确的分类(贴标)。采用这类方法,训练精度每翻四倍,精度则翻倍。例如,若数据量翻 4 倍,精度翻 2 倍。若数据量翻 16 倍,精度翻 4 倍。若数据量翻 64 倍,则精度翻 8 倍,以此类推。


除了识别「自由空间/可用空间」,特斯拉还可能将自动贴标用于其他计算机视觉任务。那么,将人工驾驶行为用于对交通灯的贴标辅助会怎样呢?


当驾驶员驱车时,交通灯通常处于绿灯状态。当驾驶员停车时,交通灯通常处于红灯或黄灯状态。当然,这类标签也会存在一点「杂音」,毕竟驾驶员偶尔也会在红灯时行驶,但研究人员表明,即便存在这类「杂音」标签,该举措也能大幅提升操作的精度。自动贴标并不需要排斥手动贴标,相反,自动贴标可被用作手动贴标的辅助手段。


显然,手动贴标也是特斯拉机器学习流程的一个重要环节。Andrej Karpathy在「自动驾驶日」活动中对此作出了解释。当谈到对视频或图像进行手动分类贴标时,特斯拉车辆的规模性是一大恩赐(优势)。


凯勒·沃格特表示:「我们需要海量的数据和驾驶(测试),原因在于试图最大限度地获取我们当前所持有数据组的熵值并确保其多样性。从本质上讲,熵值代表了数据的意外性、新颖性或不可预知性。」


一组研究人员设计了一种新方法,从原始的、未经贴标的视频中发现新的目标物类别。该技术或类似技术有望帮助特斯拉从车队里程数中提取大量罕见的边界用例(rare edge cases)。即使对图像或视频均采用手动贴标,特斯拉数据组的熵值和多样性也更高。


除了计算机视觉领域外,特斯拉还能将自动贴标应用到其他领域。当谈到预测道路用户的行为时,很容易想到自动贴标技术。未来将为过去贴上标签。特斯拉可利用海量的行驶里程数来改进预测精度,且无需进行任何手动贴标。


当谈到仿效上路行驶的人工驾驶操控时,也会产生数量充足的自动标签。驾驶员凭借其驾驶操作,自动完成贴标操作(该类标签能够被车载计算机视觉系统所识别),这就是所熟知的仿效学习(imitation learning)。特斯拉利用车队还学习人类驾驶员的驾驶方式。


由于特斯拉车队的行驶里程数远高于竞争者车队行驶里程数的总和,特斯拉可以使用自动贴标技术来提升计算机视觉、行人预测及驾驶操作习惯(通常被称为“规划”)的性能表现。基于上述的百度研究成果,特斯拉在机器学习任务若采用自动贴标,或将提升数据的数量级及其精度,超越其他竞争对手。


我认为,完全自动驾驶车辆的前景还有些晦涩难明。


今年 6 月,Cruise 的一份内部报告被泄露给媒体了。该报告涵盖了 Cruise 的预期:到 2019 年末,相较于人工驾驶的安全性,其自动驾驶车辆的安全性只能达到前者水平的 5%-11% 。从某个角度看,这一点令人颇感失望。从另一个角度看,这却是个鼓舞人心的好消息。若 Cruise 能在今年末达到其预期目标,这意味着「只」需要进一步提升 10 倍或 20 倍的安全性水平就能达到人工驾驶的平均水平。


在本文中,像特斯拉这类公司是能够利用自动贴标和大规模车队学习的,这类举措或将大幅提升与自动驾驶相关数据的数量级及机器学习任务的数量。


完全自动驾驶套件及 Cybertruck 为特斯拉带来的机遇


完全自动驾驶车辆的金融机遇非常大。


在软件成本方面(如:几近于零的边际成本),消费型车辆将转型为盈利性无人驾驶出租车。麦肯锡的分析师预计,仅洛杉矶一地,无人驾驶出租车将产生 200 亿美元(约合 1408 亿元)的年收入。此外,麦肯锡还预测,若结合无人驾驶出租车及完全自动驾驶的私家车,中国市场的年收入或将高达 2 万亿美元(约合 14.08 万亿元)。


然而,一定程度的自动驾驶也不应被忽视。若将机器学习与人工监管、人为操作介入相结合,也能够为用户提供安全、愉悦的驾驶出行服务。如今,自动驾驶市场竞争激烈,人类与计算机有时需要携手合作,类似于「在人类与机器人间展开的国际象棋赛(cyborg chess)」。在不远的将来,我们可能会看到「半人半机器的驾驶(cyborg driving)」,这类人机结合的方式可同时利用人工神经元网络和生物体(人类)各自的优势。


从实用的财务角度考量,这意味着特斯拉完全驾驶功能(Full Self-Driving Capability)软件选配件拥有较高的转换率(盈利能力,take rate),这得益于该项选配件所带来的收入,可能与其较高的定价及特斯拉车辆需求增长有关。总而言之,该选配件可为特斯拉带来较高的收入和毛利率。


此外,特斯拉 Cybertruck 的未来主义设计风格也引发了热议,口碑呈现两极分化。


Cybertruck 和《银翼杀手》(Blade Runner)的风格较像,预计首批 Cybertruck 的交付时间要等到 2021 年的年末后。到那时,我认为很可能还会推动先进城市驾驶功能的涌现,该类功能势必也具有未来主义风格,就像其外观一样超前。Cybertruck 使得人机结合驾驶变得更有意义,但这要取决于 Cybertruck 的受欢迎程度。据我个人预计,未来特斯拉或将推出 Cybercar 和 CyberSUV。


在我们享受无人驾驶出租车服务或成为半人半机器(cyborg drivers)驾驶员前,特斯拉还有一堆人工的设计及研发工作需要完成,这需要花时间。在特斯拉的研发进程中,并非所有的进程都能实现自动化,这一点难以预计。


如今,我们能做的就是等待并观察特斯拉向旗下车队发布的软件升级包及其新增功能。


推荐阅读

史海拾趣

Communications公司的发展小趣事

在电子行业的浪潮中,一家名为“通信先锋”的公司凭借其前瞻性的技术创新,迅速崭露头角。公司创始人敏锐地捕捉到了无线通信市场的巨大潜力,并投入大量资源进行研发。经过数年的努力,他们成功开发出了一款具有革命性的无线通信技术,极大地提升了数据传输速度和稳定性。

随着这款技术的推广和应用,“通信先锋”迅速获得了市场的认可。他们不仅与各大运营商建立了紧密的合作关系,还积极开拓海外市场,将产品和技术推向全球。在激烈的市场竞争中,他们凭借卓越的技术实力和良好的口碑,逐渐成为了通信行业的领军企业。

顺芯(Everest-semi)公司的发展小趣事

近年来,随着5G、物联网等技术的快速发展,电子行业面临着巨大的变革。顺芯公司及时调整战略方向,加大在5G通信芯片、物联网安全芯片等领域的研发力度。同时,公司还积极探索新的商业模式和市场机会,如与汽车制造商合作开发车载芯片等。这些举措使顺芯公司在行业变革中保持了竞争优势。

ddm hopt + schuler GmbH & Co KG公司的发展小趣事

为了保持技术领先地位和市场竞争力,ddm hopt + schuler公司积极开展跨界合作和创新发展。公司与多所知名高校和研究机构建立了产学研合作关系,共同研发新技术、新产品。此外,公司还积极参与国际交流与合作,引进国际先进技术和管理经验。这些合作不仅为公司带来了更多的创新资源,也提升了公司的国际影响力和竞争力。

Altonics公司的发展小趣事

随着技术的不断进步,Altonics公司始终保持着对创新的热情。公司加大研发投入,引进高端技术人才,不断推出具有创新性和竞争力的新产品。其中,公司自主研发的一款智能传感器,凭借其高精度、高稳定性的特点,迅速占领市场份额,成为工业自动化领域的明星产品。

GWM Associates公司的发展小趣事
设计时需要保证增益的稳定性,以确保在不同工作条件下放大器的性能保持一致。
Bud Industries公司的发展小趣事
在无线通信系统中,作为接收机的前置放大器,提高接收机的灵敏度和信号质量。

问答坊 | AI 解惑

说说模拟设计那点事儿和那几本书

我学习模电有一段时间了,向大家推荐几本自认为的\"宝典\",谈下自己使用它们的感受以及在学习模电过程中的体会,供后来者参考: 1. 拉扎维的《模拟CMOS集成电路设计》,我们研二模电课的教材,汪宁老师把这门课讲得可圈可点。当时没意识到有其他 ...…

查看全部问答>

LED寿命 试验方法

replyreload += \',\' + 377090;Timson,如果您要查看本帖隐藏内容请回复…

查看全部问答>

无法收到PBT_TRANSITION消息

在WinCE6下一个应用程序里,使用RequestPowerNotifications(hPowerNotificationMsgs, POWER_NOTIFY_ALL); 去请求power状态改变的通知。可是从开始菜单进入suspend的时候并没有收到任何power消息,但是按Power Button从suspend状态resume回来的时 ...…

查看全部问答>

RAS拨号监视消息

如何在RAS异步拨号时,得到当前拨号的状态,我写的消息和回调函数都可以在PC机上用,但在CE上都不能用(CE只支持消息),代码如下:消息的、 先注册了消息: const   UINT   WM_RASEVENT   =   ::Regist ...…

查看全部问答>

u-boot 的 配置问题.(从NAND启动)

提示的是 bad crc or nand 在网上查了下,应该是env的问题!麻烦各位有经验的朋友,说一下具体怎么改! 我用的是mini2440,page size应该是2048的,但是u-boot启动输出的还是512~已经进行过CONFIG_了…

查看全部问答>

VxWorks嵌入式国际认证培训班

        为满足各大企业及研发机构对嵌入式操作系统VxWorks人才需求,顺应广大学员学习嵌入式操作系统、获得国际认证证书、增强就业竞争力、取得高薪职位的要求,上海双实科技与上海张江信息技术专修学院继续合作举办VxWorks嵌 ...…

查看全部问答>

2407里面的WDCR寄存器是做什么用的呀??

2407里面的WDCR寄存器是做什么用的呀?? 一般如何设置它呢? …

查看全部问答>

为地下停车场能耗做做“减法”

                             ——介绍“按需照明”理念的实际应用 近年来,高层建筑、商业 ...…

查看全部问答>

【视频】教你学会使用塔式调试工具--K70+LCD

$(\'flv_JTZ\').innerHTML=(AC_FL_RunContent(\'width\', \'500\', \'height\', \'375\', \'allowNetworking\', \'internal\', \'allowScriptAccess\', \'never\', \'src\', \'http://player.youku.com/player.php/sid/XNTk4NDAwNjQ4/v.swf\', \'qu ...…

查看全部问答>

用BeagleBone Black做的掌上游戏机

自从米尔顿布拉德利的第一台使用可更换式游戏卡盒的Microvision掌上游戏机于1979年发布以后,已经过了35年的时间。从那时开始,掌上游戏机演变出了我们今天普遍使用的系统,比如任天堂3DS XL,PlayStation Vista和SNK的Neo-Geo X。之后不久任天堂又 ...…

查看全部问答>