历史上的今天
返回首页

历史上的今天

今天是:2025年07月10日(星期四)

正在发生

2020年07月10日 | 禾赛科技携手Scale AI发布开源数据集

2020-07-10 来源:EEWORLD

自动驾驶的发展离不开数据。近日,禾赛科技与Scale AI联合发布了自动驾驶开源数据集 --  PandaSet。PandaSet采用禾赛科技先进的激光雷达进行数据采集,并通过Scale  AI强大的标注平台进行精准的数据标注,为从事自动驾驶研发的公司、机构和个人,提供了内容丰富、目标物密集的高质量免费数据。


盘点全球人工智能数据平台,Scale AI是当之无愧的领军者。这家由华裔青年Alexandr  Wang在19岁时参与创立的公司,自成立以来一直深受投资者的青睐,仅用3年时间就成为了市值超10亿美元的独角兽企业。依托强大的技术实力,Scale   AI结合人工标注、智能工具和标注质量保证体系,推出了面向传感器数据、图像、视频和文本的一系列标注产品,为人工智能应用提供了一流的培训和验证数据。而作为全球领先的激光雷达制造商,禾赛科技则凭借自主研发的微振镜和波形加密技术,始终引领传感器创新的发展方向,目前已布局400多项专利,客户遍布全球21个国家和地区的70座城市。此次禾赛科技与Scale  AI携手打造PandaSet开源数据集,无疑为自动驾驶行业的发展注入了新的活力。


在自动驾驶的发展进程中,数据是处于核心地位的生产资料,代表着一家公司的核心竞争力,也决定着自动驾驶能否实现安全和稳定。以往,自动驾驶“玩家”对自己的数据普遍呈现出敏感的姿态,而随着自动驾驶的实现难度越来越浮出水面,大家也逐渐认识到单打独斗绝对不行,开放合作才是正途,于是开源数据集成为了很多自动驾驶公司的选择。


截至目前,Waymo、Cruise、百度、Uber、Lyft、Aptiv等全球领先的自动驾驶公司都已陆续开源了自己的数据集,对促进自动驾驶整体研发进程起到了举足轻重的作用。不过,开源数据集并不是自动驾驶公司的“专利”,传感器企业同样有能力在这一领域大显身手,甚至可能比自动驾驶公司做得更好。禾赛科技与Scale  AI联合发布PandaSet就是很好的例子,它为自动驾驶行业链条上的很多企业开辟了崭新的发展思路。

PandaSet开源数据集内容概览   
  PandaSet开源数据集内容概览    


PandaSet:疫情期间的一场及时雨


高质量标注数据是训练深度学习算法的“燃料”。目前,全球的自动驾驶公司所使用的深度学习算法,基本都需要使用标注数据来进行训练——只有通过不断学习标注数据,深度学习算法模型才能够帮助自动驾驶汽车更好地识别障碍物。而除了自动驾驶公司,其他自动驾驶算法开发者,例如学生、学术机构等,同样对高质量标注数据有着持续、强烈的需求。


然而,今年以来,受新冠肺炎疫情冲击,一大批自动驾驶公司不得不暂停路测工作,直接导致可用路测数据的减少甚至断供,对自动驾驶深度学习算法模型的训练造成了严重影响。  在这样的背景下,近日禾赛科技与Scale AI联合发布了PandaSet开源数据集,为众多自动驾驶算法开发者带来了一场及时雨。


PandaSet数据集采用2款激光雷达和6个摄像头进行数据采集,包含超过16000帧激光雷达点云和超过48000张照片,共100多个场景。除了激光雷达点云和照片外,数据集还包含GPS(全球定位系统)/IMU(惯性传感器)、标定参数、标注、SDK(软件开发工具包)等信息。

PandaSet点云、照片标注对照   
  PandaSet点云、照片标注对照    

 

PandaSet数据采集的两款激光雷达Pandar64和PandarGT,以及配置6个摄像头   
  PandaSet数据采集的两款激光雷达Pandar64和PandarGT,以及配置6个摄像头    


尤其值得关注的是,PandaSet数据集对100多个场景的每个场景都进行了目标检测,共检测28类物体;大多数场景还进行了语义分割,共37种语义标签。目标检测采用传统的长方体标注,例如,自行车和汽车可以用长方体线框框出来。而对于激光雷达点云数据,并非每个点都隶属于某一目标物,因此数据集还通过点云分割工具精确标注了每个点的语义标签。如此细腻的标注,也为深度学习算法模型提供了绝佳的数据资料。

PandaSet数据集还通过点云分割工具精确标注了每个点的语义标签   
  PandaSet数据集还通过点云分割工具精确标注了每个点的语义标签    


对于一个自动驾驶数据集,场景的多样性和复杂性是衡量其优劣程度的重要标准之一。PandaSet数据集中的所有数据均采集自旧金山的城区道路和硅谷的郊区道路,这些道路涵盖了汽车、自行车、交通灯、行人、建筑物等各种各样的交通信息,是对自动驾驶挑战性最大的一类应用场景。此外,PandaSet数据集的数据覆盖了白天和黑夜,也让其具备了很强的适用性。

夜晚场景的三维框标注   
  夜晚场景的三维框标注    


别被不可靠的数据集带沟里


对于自动驾驶研发者,如果想要训练出优秀的深度学习算法模型,就必须在选择数据集时格外擦亮双眼。因为一些不可靠的数据集,非但不能很好地训练算法,反而会给算法带来巨大危害,起到适得其反的作用。那么,什么样的数据集是不可靠的呢?简单来说,不准确、不完整的数据集就是不可靠的数据集。


一些不准确、不完整的数据集正在把自动驾驶汽车带沟里,其中也包括知名数据集。一个被广泛使用的、包含15000张图片的开源数据集,在该数据集中发现了数千张缺少标注的图片,其中有数百张甚至没有任何标注,但这些图片中确实有小汽车、卡车、自行车、街灯或行人。不仅如此,该数据集还存在虚假标注、复制粘贴的情况,有些标注框的体积明显超标。


“成千上万的学生都在使用开源数据集支持自己的自动驾驶项目,但质量堪忧的数据集极易误导算法模型,从而导致自动驾驶汽车做出糟糕决策,这对于自动驾驶的研发是灾难性的。”


事实上,数据集的准确性和完整性与数据采集、数据标注的流程密切相关。例如,在数据采集中,如果采集车搭载的传感器性能很差,那么采集到的数据质量一定也会很差,直接影响后续的标注及最终的使用。而在数据标注中,如果没有一套完整的标注方法,就很容易出现各种错误标记,如:未标出画面中存在的物体,反而标出不存在的物体,或者标注框没有贴合实际物体,甚至与实际物体发生大幅偏移。


对于如何打造一个高质量数据集,PandaSet是一个优秀案例。在数据采集中,PandaSet用于数据采集的两款激光雷达均为业内领先产品,这两款激光雷达由禾赛科技自主研发,一款是具有图像级分辨率的前向激光雷达PandarGT,另一款是64线机械旋转式激光雷达Pandar64,保证采集到的点云足够准确、清晰、细腻  -- 世界上现有的开源数据集普遍采集较早,还鲜有使用Pandar64和PandarGT这样的高性能激光雷达来采集数据。


此外,在数据标注中,负责该部分的Scale  AI作为标注领域的翘楚,具有一套非常严格的标注体系,包括怎么标注、怎么检查、怎么复核、怎么对不合格的标注进行重新标注、怎么管理和考评负责标注的员工等。在整个标注流程中,Scale  AI以人工作业为主,结合计算机辅助,充分保证了数据标注的完整性和准确性。


开源数据集是大势所趋


作为自动驾驶行业的领头羊,Waymo也在去年发布了自己的开源数据集Waymo Open  Dataset。该数据集包含20万帧画面、1200万条3D标注和120万条2D注释。Waymo希望自家的数据集能够帮助研发者在2D和3D感知、场景理解、行为预测等方面取得进展,从而不断提高自动驾驶汽车的性能,并促进计算机视觉和机器人等其他相关领域的应用。


在Waymo发布开源数据集之前,Cruise、百度、Uber、Aptiv等处于领先梯队的自动驾驶公司都已发布了自己的开源数据集。而在Waymo发布开源数据集之后,又有多家公司发布了自动驾驶开源数据集,例如Lyft、福特、奥迪等。


通观自动驾驶开源数据集的发展历程可见,在PandaSet发布之前,开源数据集基本都是自动驾驶公司的“专利”。而禾赛科技的“入局”,则以传感器企业的特殊视角为这一领域添上了一抹亮色,同时也让人们看到了传感器企业在自动驾驶赛场上的更多可能性。


事实上,相比于那些自动驾驶“头部玩家”,传感器企业在开源数据集中的表现并不逊色。以PandaSet为例,该数据集就拥有其他很多数据集没有的优势:采集数据的传感器业内顶尖,采集场景多样化,采集信息密度高,数据标注详尽准确并进行了精细的语义分割。还有非常重要的一点就是,PandaSet面向学术及商业应用均完全开源免费——不像很多开源数据集其实是有商用限制的。不过,PandaSet也有其局限性,例如:总的场景量和数据量均不够大,缺少不同天气状况下的数据,缺少短距激光雷达数据。


当然,PandaSet对于禾赛科技和Scale AI都只是一个开端而已。未来,两家公司将继续深入合作,采用更高线数的激光雷达以及PandarQT等短距激光雷达,采集更多场景、更多数据,并进一步优化标注方法、标注流程,让数据集更丰富、全面,让细节更完美。


禾赛科技表示,参与开源数据集是一个非常正确的决定,不仅因为这是同行没做过的事,也因为可以从中取得很多收获。


“一方面,PandaSet数据集为自动驾驶行业丰富了数据,让研发者有更多、更全面、更高质量的数据可以应用和参考,特别是对那些缺少资金和渠道来获取可靠数据集的学生们,帮助巨大。另一方面,数据集也让更多人看到了禾赛激光雷达的表现,有助于吸引客户购买我们的产品。此外,数据采集过程涉及采集车的搭建、不同传感器的融合、多传感器之间的标定……这些都是自动驾驶公司做的事,对禾赛团队是前所未有的考验,也让我们在实践中大大提升了自己的能力。”


就目前而言,开源数据集是大势所趋,是利人利己的一件事。因为自动驾驶数据采集是一个周期长、地域广的超大型项目,如果各家企业都能将自己的数据进行共享,并吸引更多企业和研发者应用并补充数据集,就可以为整个行业大大缩减数据采集时间,从而促进自动驾驶早日实现商业化落地。而从企业自身出发,如果自家的数据或代码被广泛采用,甚至连竞争对手也大量采用,就相当于在业内树立起了一个非正式标准,对企业地位提升和长远发展意义重大。


推荐阅读

史海拾趣

Hoffman_Enclosures__Inc.公司的发展小趣事

面对客户日益多样化的需求,Hoffman提供了超过12,000种标准产品以及量身定制的解决方案。公司拥有一支专业的研发团队和完善的生产体系,能够根据客户的具体需求,快速设计出符合要求的电气机柜和温控产品。这种灵活的定制化服务不仅满足了客户的个性化需求,也进一步增强了客户对公司的信任和忠诚度。

Heatron公司的发展小趣事

随着市场对个性化需求的增加,Heatron公司敏锐地捕捉到了这一趋势。公司成立了专门的定制化服务团队,致力于为客户提供从设计到生产的全方位解决方案。无论是特殊尺寸的加热器,还是具有特定功能的电加热元件,Heatron都能根据客户需求快速响应并高效完成。这种以客户为中心的服务模式,帮助Heatron在竞争激烈的市场中脱颖而出,赢得了众多知名企业的青睐。

D1 International Inc公司的发展小趣事

作为一家有社会责任感的企业,D1 International Inc公司始终关注环境保护和可持续发展。公司在生产过程中采取环保措施,减少废弃物排放,同时积极推广绿色电子产品。此外,D1 International Inc公司还积极参与社会公益活动,回馈社会,为构建和谐社会贡献自己的力量。

欧密格光电(Amicc)公司的发展小趣事

D1 International Inc公司深知,持续的技术创新是企业发展的核心动力。因此,公司不断加大研发投入,积极引进和培养高素质的研发人才。通过不断的创新实践,D1 International Inc公司在多个领域取得了重要的技术突破,为公司的发展注入了新的活力。

Fujisoku Corporation公司的发展小趣事

随着全球化进程的加速,“未来电子”意识到单一市场已无法满足公司的长远发展需求。于是,公司制定了全球化战略,通过设立海外研发中心、生产基地和销售网络,积极拓展国际市场。在欧洲、北美和亚洲等地,“未来电子”的产品和服务得到了广泛认可,市场份额逐年攀升。这一战略不仅提升了公司的国际影响力,还为公司的持续增长提供了强劲动力。

GigPeak公司的发展小趣事

在快速发展的过程中,GigPeak深刻认识到与产业链上下游企业合作的重要性。公司积极寻求与芯片制造商、设备供应商和系统集成商等合作伙伴建立长期稳定的合作关系。通过资源共享、技术交流和联合研发等方式,GigPeak与合作伙伴共同构建了一个完整的产业生态体系。这一生态体系的建立不仅提升了GigPeak的市场竞争力,还促进了整个行业的健康发展。

问答坊 | AI 解惑

地址映射问题

MapCallerPtr这个函数的作用是什么,为什么要使用这个函数我始终不理解!请高人指教哈!…

查看全部问答>

wince ppc下如何捕获鼠标事件?

wince下捕获键盘消息可以用SetWindowsHookExW的hook实现,但是我在ppc 6.0下不能捕获鼠标 以下是实现: [code]        HINSTANCE library;         sethook sethookfunction;       ...…

查看全部问答>

怎么监测从DSP发到主机端的中断信号?急!进者有份

我做的是DM642的WDM驱动,请问大家从DSP到主机端的中断信号在驱动中是怎么监测的? 直接在中断服务程序中写判断就行了吗(我用DriverStudio生成的框架,里面已经有中断服务例程)? 我在中断服务例程里写了输出语句,在DSP端连续发中断后,发现这 ...…

查看全部问答>

招聘WinCE软件工程师!

公司急需招人,借eeworld宝地一用!谢谢 C++基础 Windows编程基础! WinCE/.NET环境下做过手机开发或相近经验者更佳 公司即需要有经验的熟手,也愿意培养有潜力的人才。 待遇面议。 有意加盟者请发简历至whpeace@163.com …

查看全部问答>

multisim10.0中频谱分析仪怎么用

本帖最后由 dontium 于 2015-1-23 13:38 编辑 multisim10.0中频谱分析仪怎么用啊       直接上图  帮忙分析下   频谱分析仪怎么看   4.545HZ   15.994V 是什么意思 …

查看全部问答>

菜鸟学习笔记2

在1中的blinky小灯闪烁是通过for循环实现的,这里我们用定时器来实现小灯;LM3S8962集成了一个通用定时器模块,这个模块中包含4个定时器(GPTM),每个GPTM模块包含两个16为定时器(TimerA和TimerB),我们可以将一个GPTM模块配置成一个32位定时器或 ...…

查看全部问答>

请各位老师看看帮我转换一下eagle.brd文件

转换一下eagle.brd文件                      可以99se 可看的pcb 文件 …

查看全部问答>

STM32F107在使用以太网的晶振问题

                                 在网上看见ST的107教程上说,用107为以太网控制器提供时钟,在107上连接的晶体是25MHz,晶体必须用25MHz的吗?还是 ...…

查看全部问答>

恩智浦呈现全新car-to-x通信平台

恩智浦呈现全新car-to-x通信平台 实现道路交通更安全的重要里程碑   恩智浦半导体NXP Semiconductors N.V.(Nasdaq:NXPI)近日于荷兰的一条公共道路上现场演示了car-to-x(汽车对多应用;C2X)通信。此次演示令恩智浦成为首家从提出理念到 ...…

查看全部问答>

我还没有经验分享

要是我已经有TI M3经验分享就不需要购此开发版了,大家说呢。哈哈…

查看全部问答>