历史上的今天
返回首页

历史上的今天

今天是:2024年10月15日(星期二)

正在发生

2019年10月15日 | 什么是DNN?它对AI发展意味着什么

2019-10-15 来源:ESM

为了让AI加速器在最短延迟内达到最佳精准度,特别是在自动驾驶车中,TFLOP已经成为许多所谓大脑芯片的关键指针,然而,有专家认为这种野蛮处理方式并不可持续……

 

 

为了让人工智能(AI)加速器在最短延迟内达到最佳精准度,特别是在自动驾驶车(AV)中,TFLOP(兆次浮点运算)已经成为许多所谓大脑芯片的关键指针。这场竞赛的选手包括Nvidia的Xavier、Mobileye的EyeQ5、特斯拉(Tesla)的全自动驾驶(FSD)计算机芯片,以及NXP-Kalray芯片。

 

然而,有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中,DeepScale执行长Forrest Iandola提出其不可持续的理由,是因为AI硬件设计师所持有的许多常见假设已经过时。随着AI应用日益增多,AI供货商从中积累更多的经验,这导致不同的AI任务开始需求不同的技术方法。如果事实的确如此,AI使用者购买AI技术的方式将会改变,供货商也必将做出回应。

 

20191008NT31P1

 

DeepScale执行长Forrest Iandola

 

Iandola表示,就拿神经网络架构搜寻(NAS)为例,其快速发展不仅加快优化深度神经网络(DNN)的搜寻过程,并降低这一过程的成本。他相信有一种方法可以“在目标任务和目标运算平台上建立最低延迟、最高精准度的DNN,”而不是依赖于更大的芯片来处理所有的AI任务。

 

Iandola设想未来AI芯片或传感器系统(如计算机视觉、雷达或光达)供货商不仅提供硬件,而且还会提供自己的高速、高效的DNN——为应用而设计的DNN架构。任何供货商都会为不同的运算平台匹配各自所需的DNN,如果事实真是如此,那AI竞赛中的所有赌注都将失效。

 

需要明确的是,目前无论是芯片公司还是传感器供货商都没有提出上述前景。甚至很少有人在特定硬件上运作有针对性AI任务的可能性。

 

Iandola及其DeepScale团队最近设计了一系列DNN模型,称为“SqueezeNAS”。在最近的一篇报告中,他们声称,当在目标平台上搜寻延迟时,SqueezeNAS“可以建立更快、更准确的模型”。这篇报告推翻了AI小区先前对NAS、乘积累加(MAC)运算和将ImageNet精确度应用于目标任务时所做的一些假设。

 

DeepScale于2015年由Iandola和Kurt Keutzer教授共同创立,是一家位于加州山景城的新创公司,致力于开发“微型DNN”。两位联合创始人曾在加州大学柏克莱大学分校共事,DeepScale因其快速高效的DNN研究而在科学界备受推崇。

 

手工设计(Manual designs)

 

要想真正理解机器学习在计算机视觉方面的最新进展的意义,需要了解其发展历史。

 

还记得AlexNet网络结构模型在2012年赢得ImageNet影像分类竞赛吗?这为研究人员打开了竞争的大门,让他们专注于ImageNet研究,并寻找能够在计算机视觉任务上达到最高精准度的DNN,以此开展竞争。

 

20191008NT31P2

 

ImageNet分类错误统计。(数据源:ResearchGate)

 

通常,这些计算机视觉研究人员依靠专家工程师,他们会手工设计快速且高精准度的DNN架构。

 

从2012年到2016年,他们提高了计算机视觉的准确性,但都是透过大幅增加执行DNN所需资源来实现这一目标。Iandola解释,例如,赢得2014年ImageNet比赛冠军的VGGNet,其使用的运算量是AlexNet的10倍,参数是AlexNet的2倍。

 

到2016年,学术研究界发现利用增加DNN的资源需求来提高准确性“不可持续”。SqueezeNet便是研究人员寻找的众多替代方案之一,由Iandola及其同事在2016年发表,它展示出在微小预算(低于5MB)参数下ImageNet的“合理的准确性”。

 

Squeezenet引发了两个重大变化。相对于SqueezeNet和其他早期运算而言,MobileNetV1能够大幅度减少MAC的数量,Shufflenetv1是为行动端CPU实现低延迟而优化的DNN。

 

利用机器学习改善机器学习

 

如前所述,所有这些先进DNN都是透过手工设计和调整神经网络架构开发而成。由于手工流程需要专业的工程师大量的除错,这很快就成为一个成本太高、耗时太久的提议。

 

因而基于机器学习,实现人工神经网络设计自动化的理念,NAS应运而生。NAS是一种搜寻最佳神经网络架构的算法,并改变了AI格局。Iandola称,“到2018年,NAS已经开始构建能够以较低延迟运行的DNN,并且比以前手工设计的DNN产生更高的准确性。”

 

强化学习(Reinforcement Learning)

 

随后,计算机视觉界开始使用基于机器学习的强化方法——强化学习。换句话说,“机器学习得到回馈来改善机器学习,”Iandola解释。在基于强化学习的NAS下,未经训练的强化学习获得建议,指定层数和参数来训练DNN架构。一旦对DNN进行训练,训练运作的结果将作为回馈,从而推动强化学习执行更多DNN来展开训练。

 

经证明,基于强化学习的NAS是有效的。Google MnasNet就是一个很好的例子,它在ImageNet延迟和准确性方面都优于ShuffleNet。但它也有一个关键的弱点:成本太高。基于强化学习的搜寻通常需要数千个GPU天(GPU day),以训练数百乃至数千个不同的DNN,才能生成理想的设计。“Google负担得起,”Iandola表示,但大多数其他公司负担不起。

 

现实地说,一个基于强化学习的NAS要训练一千个DNN,每个DNN通常需要一个GPU天。考虑到目前亚马逊(Amazon)云端服务平台的价格,Iandola估计,一个使用基于强化学习的NAS搜寻所花费的云端运算时间可能耗资高达7万美元。

 

超级网络(Supernetwork)

 

在这种情况下,去年底出现了一种新的NAS类型,称为基于“超级网络”的搜寻。它的典型代表包括FBNet(Facebook柏克莱网络)和SqueezNet。

 

20191008NT31P3

 

搜寻时间减少100倍。(数据源:DeepScale)

 

Iandola解释:“超级网络采用一步到位的方法,而不是培训1,000个独立的DNN。”例如,一个DNN有20个模块,每个模块有13个选项。若为每个模块选择一个最喜欢的选项,“你正在以10个DNN训练运作花费为代价,一次性训练一个汇集了千兆种DNN设计的DNN,”Iandola解释。

 

结果显示,基于超级网络的NAS可以在10个GPU天的搜寻时间内建立DNN,其延迟和准确性优于MnasNet。“这让搜寻成本从7万多美元减少到大约700美元的亚马逊云端服务GPU时间,”Iandola说。

 

“10个GPU天”的搜寻时间相当于在一台如衣柜般大小的8 GPU机器上花费一天的时间,”Iandola解释。

 

20191008NT31P4

 

基于强化学习与基于超级网络的NAS比较。(数据源:DeepScale)

 

过时的假设

 

机器学习的简短历史向我们展示神经结构搜寻的出现如何为计算机视觉研究奠定基础。但是在这个过程中,它也反驳了研究团体早期的一些假设,Iandola指出。

 

那么,哪些假设需要纠正呢?

 

Iandola称,大多数AI系统设计者认为,ImageNet分类中最精确的神经网络可以为目标任务提供最精确的骨干网络。但计算机视觉包括许多AI任务——从目标检测、分割和3D空间到目标追踪、距离估计和自由空间等。“并非所有任务都是平等的,”Iandola强调。

 

ImageNet的准确性与目标任务的准确性没有太紧密的关联。“这没法保证。”他说。

 

来看由Iandola团队创建的SqueezeNet。Iandola解释,这是一个小型的神经网络,它的ImageNet分类精准度明显低于VGG,但在“用于辨识一组影像中相似斑块的任务”时,它比VGG更准确。

 

随着分类任务达到极限,Iandola坚信是时候为不同的任务设计不同的神经网络了。

 

另一个普遍的假设是“在目标运算平台上减少MAC将产生更低的延迟。”然而,最近的研究说明,减少MAC与减少延迟并无太大关联。“拥有较少MAC的神经网络并不总是能够实现较低的延迟,”Iandola指出。

 

在Iandola的SqueezeNAS报告中,他坚持认为,不仅仅是不同的AI任务需要不同的DNN。为目标运算平台(如CPU、GPU或TPU的特定版本)选择合适的DNN也非常重要。

 

例如,他引用了为不同智能型手机优化网络的FBNet作者的话。他们发现DNN在iPhonex上运作得很快,但在三星Galaxy S8上执行得很慢。在报告中,Iandola的团队总结,“即使MAC的数量保持不变,不同的卷积维数也会根据处理器和核心实现决定运作得更快或更慢。”

 

对自动驾驶的影响

 

今天,DeepScale已经与多家汽车供货商建立了合作关系,包括Visteon、Hella Aglaia Mobile Vision GmbH和其他未透露名称的公司。DeepScale一直在开发微型DNN,该公司声称,他们在保证最先进的性能的同时,它们需要的运算量更少。

 

在SqueezNas的报告中,Iandola和他的同事解释,其团队使用基于超级网络的NAS来设计一个用于语义分割的DNN,用于辨识道路、车道、车辆和其他物体的精确形状等具体任务。“我们对NAS系统进行配置,以优化Cityscapes语义分割数据集的高精准度,同时在小型车辆级运算平台上实现低延迟。”

 

随着SqueezNAS的发展,DeepScale对自己的定位是:在优化DNN、AI硬件和特定AI任务之间的协同关系方面成为先行者。

 

随着AI芯片即将席卷市场,Iandola认为系统设计师必须明智地选择加速器。他们应该确切地考虑硬件应该执行哪种AI任务,以及硬件加速器应该在哪种神经网络上运作。

 

安全摄影机、自动驾驶车和智能型手机都将使用AI芯片。考虑到每个系统所需的速度、准确性、延迟和应用程序大不相同,确定合适的硬件和NAS就变得至关重要。

 

Iandola表示,对于OEM车厂来说,要把一个测试版自动驾驶车变成一个商业产品,必须把目前储存在自动驾驶车后行李箱中的刀锋服务器抽取出来。Iandola预测,汽车制造商可能会要求硬件芯片公司提供适合硬件平台的优化DNN。

 

对于Nvidia这样的公司来说,这可能不成问题,因为它的GPU得到了一个大型软件生态系统的支持。然而,大多数其他AI硬件供货商将会吓出一身冷汗。

 

此外,随着一系列新的传感器——摄影机、光达和雷达——被设计进自动驾驶车,汽车OEM将面临一些残酷的现实,例如,每个传感器可能使用不同类型的神经网络。另一个例子是,不同品牌设计的光达使用不同的AI硬件。Iandola指出,“今天,无论是传感器供货商还是AI处理器公司都没有提供针对其硬件进行优化推荐的神经网络。”

 

Iandola表示,OEM车厂和一级零组件供货商将开始要求优化DNN,以匹配特定硬件和AI任务,这将无法避免。“我们相信,使用NAS优化目标运算平台上的低延迟变得越来越重要。”

 

随着基于超级网络的NAS出现,NAS的成本已经在下降。因此,现在可能是时候让硬件供货商开始寻找自己的优化DNN。当被问及DeepScale是否计划透过合作、授权或为AI硬件公司开发优化DNN来填补这一缺口时,Iandola说,“我们还没有真正考虑过这个问题。”

 

推荐阅读

史海拾趣

Belden Wire and Cable公司的发展小趣事

为了满足不断增长的市场需求,1928年,Belden在印第安纳州里士满开设了一家专为制造电线而设计的新工厂。这家工厂的建立极大地提升了公司的产能和效率,为公司的进一步发展提供了有力保障。在随后的几十年里,随着第二次世界大战的爆发和战后经济的复苏,里士满工厂经历了多次扩建和升级,逐渐成为百通最大的制造工厂之一。

爱特姆(ATOM)公司的发展小趣事

爱特姆深知人才是企业发展的核心动力。因此,公司一直注重人才的引进和培养。通过招聘行业内的优秀人才,建立了一支高素质、专业化的研发团队。同时,公司还定期举办各类培训活动,提升员工的技能水平和综合素质。

GSI Technology公司的发展小趣事

进入21世纪后,GSI Technology继续加大研发投入,不仅巩固了其在SRAM领域的领先地位,还成功扩展了产品线,包括同步突发SRAM、无总线周转SRAM等。同时,公司还推出了SigmaRAM、SigmaQuad、SigmaQuad II等系列产品,这些产品以其卓越的性能、高可靠性和低功耗特性,赢得了市场的广泛认可。此外,GSI还致力于提供超长产品支持生命周期和完整的售前售后服务,进一步增强了客户粘性。

Hi-Tron Semiconductor Corp公司的发展小趣事

从财务表现来看,GSI Technology在过去几年中取得了不俗的成绩。尽管在某些季度受到宏观经济环境和市场需求波动的影响,但公司整体营收和净利润均保持了稳定增长。特别是在2023年Q3财报中,尽管营收略低于市场预期,但公司依然展现出了强劲的发展潜力和市场竞争力。展望未来,GSI Technology将继续秉承创新、务实、高效的发展理念,不断推出更多高性能、高品质的存储器产品,为全球电子行业的发展贡献自己的力量。

AVX公司的发展小趣事

AVX一直致力于绿色技术的研发与应用。在数十年的深入研发支持下,AVX的产品为各种绿色技术提供了关键的支持,如风能、太阳能和水力发电等领域。这些技术的应用旨在节省现有能源并创建可靠、价格合理的电子系统,为可持续发展做出了积极贡献。AVX在这一领域的持续投入和创新,使其在绿色技术领域取得了显著成果。

ADDtek公司的发展小趣事

XXXX年,AVX公司迎来了一个重要的转折点,它与日本Kyocera公司达成了战略合作。这次合作使AVX在技术上获得了强大的支持,并在市场上获得了更广阔的发展空间。通过整合双方的优势资源,AVX在贴片陶瓷电容、连接器等领域取得了显著的成绩,进一步巩固了其在电子元件市场的地位。

问答坊 | AI 解惑

关于CDMA DTU的开发

各位前辈:     小女子现在手上有一个任务:使用lpc2136 ARM7芯片加扩展卡DTL800,在uC/OS-II操作系统上设计一款CDMA DTU, 实现AT指令操作,比如短信,语音,拨号上网等方式,用的是2.5G的  全名是:CDMA低速上网卡。 &nbs ...…

查看全部问答>

驱动开发头文件,很简单的问题

驱动开发头文件,很简单的问题, 请赐教. 我现在正在学习一个关于步进电机的嵌入式驱动开发的C程序.这个程序的头文件不同一般的c语言.初学.请赐教一二. #include #include #include #include #include #include #include #include #includ ...…

查看全部问答>

求一报警器设置知道

一物体经过后要确定它外表是否具有标签。其中标签上面有一圈是黄色的 求指导~~~经过的时间暂定是1秒一个吧~~物体长度大概是5cm…

查看全部问答>

找一个几十篇UCOSII下载的地方

http://www.armjishu.com/bbs/viewtopic.php?id=1980 因为太大了,大家自己去下载吧…

查看全部问答>

镍氢电池充电器的三阶段式充电方式的设计,求电路图或设计思路

同时对2节镍氢电池进行并行充电。电源电路输出最大功率5W。当单节电池电压大于1.3V时停止充电,并指示充电完成。当充电电池短路时具有短路保护功能。 电池充电分为3阶段,第一阶段电池电压0.9V-1V时,充电电流控制在300mA,第二阶段电池电压在1V-1 ...…

查看全部问答>

DIY手机 方案细节征集

GSM模块采用SIM900A,对外提供SMA接口,耳机(带mic耳机)和扬声器接口,板载mic,串口可连接到MCU或者引出供网友DIY,SIM卡座 MCU选用LPC176X(或者其他?) 电源:LM2596S-ADJ 提供4.0V电压;  TC1262-3.3VDB 提供3.3V电压 按键:1 ...…

查看全部问答>

顶标C80 88Z的芯片具体型号(已知是用作4分频)

如图,芯片顶标 第一行:C80,第二行:88Z 已知在电路中是用作4分频的元件。 求具体型号,或者类似功能的芯片型号。 …

查看全部问答>

非對稱半橋仿真

用proteus進行仿真 半橋IC為IR2109 操作頻率30K 想利用LC諧振震盪產生一個高壓 但目前發現VDS波形怪怪的 並不是一個半方波 看過其他PAPER應該是要半方坡才對 不知道有沒有人知道原因 …

查看全部问答>

湖南省四旋翼飞行器开放题大讨论——不容错过的思维大碰撞

2014年湖南省大学生电子设计竞赛 公开赛题    四旋翼自主飞行器(A) 一.任务 设计并制作一个四旋翼自主飞行器,能够在规定的测试场地完成规定的测试内容.所设计的四旋翼飞行器带防撞圈,外形尺寸(含防撞圈)限定为:长度≤50cm,宽度≤ ...…

查看全部问答>

求利用独立四键输入四位数,显示在lcd1206第二行中间位置

求利用独立四键输入四位数,显示在lcd1206第二行中间位置…

查看全部问答>