历史上的今天
今天是:2025年01月26日(星期日)
2018年01月26日 | AI芯片大军来袭
2018-01-26 来源:eettaiwan
专为训练DNN量身客制的第一批商用芯片将于今年上市。由于训练新的神经网络模型可能需要几周或几个月的时间,因此,这些芯片可能是迄今为止最大也是最昂贵的大规模商用芯片…
深度神经网络(DNN)就像遥远地平线上的海啸一样涌来。
鉴于该技术的演算法和应用仍在演进中,目前还不清楚深度神经网络最终会带来什么变化。但是,迄今为止,它们在翻译文本、辨识影像和语言方面所取得的成就,清楚地表明他们将重塑电脑设计,而这种变化正在半导体设计和制造方面发生同样深刻的变化。
专为训练DNN量身客制的第一批商用芯片将于今年上市。由于训练新的神经网络模型可能需要几周或几个月的时间,因此,这些芯片可能是迄今为止最大、也最昂贵的大规模商用芯片。
新创公司追逐深度学习
业界可能会在今年看到来自新创公司Graphcore一款未使用DRAM的微处理器,以及一款来自其竞争对手——晶圆级整合先锋Cerebras Systems的产品。英特尔(Intel)收购取得的2.5-D Nervana芯片已经在生产样片了,其他十几个处理器正在开发中。同时,从Arm到Western Digital (WD)等几家芯片公司也在研究核心,以加速深层神经网络的推论部份。
“我认为2018年将是一场各种产品纷纷出炉的派对。”加州大学柏克莱分校(UC Berkeley)荣誉教授David Patterson表示:“我们刚刚开始看到许多公司开始评估一些想法。”
这个趋势非常明显,Patterson和共同作者John Hennessey在上个月发表有关运算的开创性文章最新版中,另外写了一个新的篇章。作者对内部设计提供了深入的见解,例如Patterson针对Google TensorFlow处理器(TPU)以及苹果(Apple)和Google最新智能型手机芯片中的Microsoft Catapult FPGA和推理模组发表评论。
“这是电脑架构和封装的复兴,”Patterson说:“明年我们将会看到比过去十年更有趣的电脑。”
过去几年来,深度神经网络的兴起,让创业投资(VC)的资金重新回到了半导体领域。 《EE Times》最近发表的新创公司评选计划‘Silicon 60’中,列举了七家与神经网络芯片有关的新创公司,其中包括两个鲜为人知的名称:中国北京的寒武纪科技(Cambricon Technologies)和美国德州的Mythic Inc.。
“我们看到基于新架构的新创公司爆增。我自己追踪了15到20家......过去10到15年来,在任何一个细分领域中都不曾有超过15家的半导体公司同时涌现的事情”,连续创业家Chris Rowen说。他从Cadence Design Systems离职后,成立了一家公司Cognite Ventures,专注于神经网络软件。
Rowen说:“Nvidia由于其强大的软件地位,将难以与其在高阶服务器训练方面竞争。而如果你去追求智能型手机市场你会觉得自己疯了,因为你必须在很多方面都做得出色。不过在高阶或是低阶的智能型手机市场,还是可能会有一些机会。”
市场观察家The Linley Group负责人Linley Gwennap表示,Nvidia最新的GPU (Volta)表现非常出色,他们调整了对于DNN的速度训练。Gwennap说:“但我当然知道这还不见得是最好的设计。”
Gwennap说,英国Graphcore和美国Cerebras是在训练芯片方面最值得观察的两家新创公司,因为他们筹集的资金最多,而且似乎拥有最好的团队。由Google前芯片设计师创立的新创公司Groq声称,它将在2018年推出一款推理芯片,能在每秒运作效能和推论中以4倍的优势击败竞争对手。
Intel的Nervana称为Lake Crest (上图),是最受关注的客制设计之一。它执行16位元矩阵操作,资料共用指令集提供的单个5位元指数。
如同Nvidia的Volta,Lake Crest逻辑元件位于台积电(TSMC)的CoWoS中介层上,紧邻着四个HBM2高频宽存储器堆叠。这些芯片被设计成网状,提供3-10倍于Volta的性能。
虽然去年微软在DNN上使用了FPGA,但Patterson仍然对于这种方法持怀疑态度。“你为FPGA的灵活性付出了很多代价。但程式设计真的很难,”他说。
Gwennap在去年年底的一项分析中指出,DSP也将发挥作用。他说,Cadence、Ceva和Synopsys都提供针对神经网络的DSP核心。
加速器缺少共同基准
虽然芯片即将问世,但是架构师们还没有决定如何评估。
就像RISC处理器的早期,Patterson回忆说,“每一家公司都会说,『你不能相信别人做的基准,但是你可以相信我的』,那不太好。”
那时,RISC供应商在SPEC基准测试中进行了合作。现在,DNN加速器需要自己定义的测试套件,涵盖各种资料类型的训练和推理以及独立的或是丛集的芯片。
因此,由20多家主要服务器和软件制造商组成的“交易处理性能委员会”(TPC)在12月12日宣布组建了一个工作组来定义机器学习的硬件和软件基准。 TPC-AI委员会主席Raghu Nambiar表示,目标是创建无论加速器是CPU还是GPU都适用的测试。但是,这个团队的成员名单和时间架构还处于变化中。
百度(Baidu)于2016年9月发布了一个基于其深度学习工作负载的开放原始程式码基准测试工具,使用32位元浮点数学进行训练任务。它在六月份更新了DeepBench以涵盖推理工作以及使用16位元数学。
美国哈佛大学(Harvard University)研究人员发表的Fathom套件中,定义了8个人工智能(AI)工作负载支持整数和浮点数据。Patterson说:“这是一个开始,但是要成为一个让人感觉舒适的全面基准测试套件,还需要更多的努力作。”他说:“如果我们努力打造一款好的测试基准,那么所有投入工程的钱都会花得值得。”
除了基准之外,工程师还需要追踪仍在演变中的神经网络演算法,以确保其设计不会被束之高阁。
高通(Qualcomm)下一代核心研发总监Karam Chatha表示:“软件一直在变化中,但是你需要尽早把硬件拿出来,因为它会影响软件——你不得不催促让它发生。到目前为止,行动芯片供应商正在Snapdragon SoC的DSP和GPU核心上执行神经网络任务,但一些观察家预计,它将为机器学习客制一个新的模组, 放在2019年的7nm Snapdragon SoC中。
Patterson说:“市场将会决定哪种芯片最好。现实是残酷的,但这是设计电脑让人兴奋之处。”
早期进入的业者已经进入这场机会竞赛中。
例如,Facebook最近证明,透过大幅增加封装到所谓批量大小的功能数,可以将训练时间从一天缩短到一小时。对于试图在本地SRAM中执行所有运作的Graphcore来说,这可能是个坏消息,因为这样的设计虽然降低了外部DRAM的存取延迟,但也限制存储器占用空间。
Patterson说:“这是为小批量资料封包而设计的,但几个月前的软件结果表明你需要大量的资料。这显示事情变化的速度有多快。”
另一方面,Rex Computing认为该公司正迎来一个有利的机遇。该新创公司的SoC最初是为高性能服务器设计的,使用了一种新颖的暂存器存储器。Rex Computing联合创始人Thomas Sohmers说Rex的方法消除了在虚拟页面表中快取资料的需求——因为这种使用GPU的技术会增加延迟。
因此,他说Rex的芯片性能比现在的GPU更好,特别是在处理普遍的矩阵/向量运算神经网络时。该新创公司计划6月份推出搭载256核心的16nm SoC,希望能提供256Gflops/watt的运算能力。
与此同时,研究人员正试图从32位元到1位元浮点和整数数学的一切可能,以找到最有效的方法来运算神经网络的结果。他们似乎同意的一点是,最好不要在不同的精确度之间转换。
AI演算法仍处于发展初期
深度神经网络几十年来一直在AI方面进行小部份的工作。从2012年开始,包括Facebook的Yann LeCun等研究人员开始使用特定类型的DNN辨识影像,最终以比人类更高的准确度显示令人惊叹的结果。深度学习技术吸引了研究界,现在正高速发表论文,寻求新的突破。
DNN现在提供商业服务,如亚马逊(Amazon)的Alexa和Google翻译,以及Facebook的脸部辨识。网络巨擘及其全球竞争对手,正竞相将这些技术应用于尽可能多的服务中,并期待找到杀手级应用。
微软每年都会以AI为主题举行两次员工内部会议。最近一次有5,000人参加,前SPARC处理器架构师Marc Tremblay表示,他现在领导微软在客制AI芯片和系统方面的工作。
专家坦承,他们没法完全理解为什么现有演算法能如此充份发挥。辩论主题是探讨这些网络演算法的相对有效性,例如递回(RNN)和卷积(CNN)神经网络。同时,新的模式仍在发明之中。
AMD研究员Allen Rush在最近一次关于AI的IEEE研讨会上说:“在未来五年内,演算法仍然极有可能发生改变。但我们打赌像矩阵乘法这样的最底层演算法是不会改变的。”
这就是Google以TPU所做的赌注,最新版TPU针对训练和推理工作。它本质上是一个大的乘法累加单元阵列,执行和储存线性代数常式的结果。Nervana和Graphcore的芯片预计会随之效仿。
哈佛大学前大脑研究人员Amir Khosrowshahi说,在神经网络方面取得的成就主要集中在AI领域。他曾经共同创办了Nervana公司,目前是英特尔Nervana部门的技术长。他在IEEE研讨会上表示:“由于深度学习非常成功,所以事实逐渐被掩盖了。如今,每个人都在做卷积神经网络,但这是一场悲剧......不要以为现在发生的事情一年后就一定会有成果。”
尽管DNN可以比人类更精确地辨识影像,但Khosrowshahi说:“但当今的数据科学家被迫花费庞大的时间对数据进行预处理、对模型和参数进行迭代,并且等待训练的汇整......每一步不是过于劳累就是过度运算密集。”
总的来说,“人工智能的问题仍然非常困难。”他补充说,“最优秀的研究人员可以让机器人打开一扇门,但拿起杯子可能比赢得Alpha Go更困难。”
在这种环境下,Facebook和Google等网络巨头发布了大型数据组合,以吸引更多的人致力于更尖端的问题,例如视频等新应用领域或数据类型的辨识问题。
扩展应用领域
随着演算法发展,研究人员也在推动深度学习的应用领域。
Google旨在系统地将DNN应用于解决各种问题,从辅助盲人的自动字幕图片、阅读核磁共振成像(MRI)扫描结果,一直到监测厂房的品质控制等。Google人工智能研发负责人李佳(Jia Li)在IEEE研讨会上表示:“人工智能不是一项技术或产品。我们需要开始理解一个领域,然后收集数据、找到演算法,并提出解决方案。每一个新问题都需要一个不同的模型。”
事实上,人们正将DNN应用于几乎所有领域,包括设计和制造芯片。英特尔编制了四十多种可能用途的清单,包括从消费者网上购物辅助到华尔街(Wall Street)自动交易的程式等。
Target公司数据科学家Shirish Tatikonda更进一步剖析这一应用领域。大部份的零售商数据都是关联性数据,而不是最适合神经网络的非结构化数据。Shirish Tatikonda也曾经是IBM研究人员,他在接受采访时表示,Target的业务问题中只有大约10%适用于DNN。尽管如此,该公司正积极开拓这一领域,其系统中约有10%是针对训练神经网络模型的GPU伺服器。
为了扩大这种巨大的努力,Google的研究人员开始探索其所谓的AutoML。这个想法是使用神经网络自动产生模型,而不需要数据科学家手动调整。
机器人技术先驱Rodney Brooks担心,这一期待可能会落空。他在最近的一次谈话中说:“深度学习是好的,但它开始成为一个锤子,让人们可以用它去打碎一切东西。”
Patterson则仍对此表示乐观。他说,虽然广泛的AI领域没有达到过去的承诺,但它在机器翻译等领域的成果是真实的。“可能在所有容易实现的目标都达成后,人们会发现没有什么更令人兴奋的事情了,但你现在几乎每个星期都会看到新的进展......所以我认为未来将会发现更多的AI用途。”
首度致力于软件融合
在早期的狂乱和分散中,即使是致力于软件融合的工作也很零散。百度(Baidu)的AI研究团队进行了一项调查发现,有11项措施是用于弥补神经网络竞争软件架构之间的差距。
目前最有前景的是开放神经网络交换(ONNX) 格式,这是一个由Facebook和微软开始的开放来源计划,亚马逊(Amazon)最近也加入了。该小组在12月发布了ONNX格式的第一版,旨在将用十几个竞争软件架构中任何一个创建的神经网络模型转换成图形表示。
芯片制造商可以在结果图形上定位其硬件。这对于那些无法编写独立软件来支持竞争模型架构的新创公司来说是个好消息,例如Amazon的MxNet、Google的TensorFlow、Facebook的Caffe2以及微软的CNTK。
由30多家主要芯片供应商组成的团队于12月20日发布其首选——神经网络交换格式(Neural Network Exchange Format;NNEF)。 NNEF旨在为芯片制造商提供创建自家内部格式的替代方案,就像英特尔的Nervana Graph,以及Nvidia的TensorRT平台一样。
百度还发现了ISAAC、NNVM、Poplar和XLA等多种格式。百度矽谷AI实验室资深研究员Greg Diamos表示:“想知道是否会出现一个成功的格式,现在可能还为时过早,但我们正走上一条更好的路,其中之一最终可能会胜出。”
另外,Google已经开始使用软件来自动化精简DNN模型的过程,使其得以执行从智能型手机到物联网(IoT)节点的所有事情。如果成功的话,可望将50Mbyte的模型降低到500Kbyte。
Google也在探索如何在手机上进行有限的模型训练,方法是根据当天收集的数据调整模型的顶层或在夜间执行的流程。像SqueezeNet和MobileNet这样的业界行动也同样展现了更简单成像模型的路径。
负责Google TensorFlow Lite计划的Pete Warden表示:“我们看到了大量使用机器学习的人们在各种各样的产品中大量涌现。“让每次运算的能耗降下来这件事,让我每天工作到深夜。”
展望未来
当专家细看AI的未来时,他们看到了一些有趣的可能。
当今我们使用基于手动调整模型的监督式学习。Google的研究人员Warden也看好不久将出现半监督方法,让手机等客户端装置自行处理一些学习。最终目标是无监督的学习——让电脑自己进行教育,而不再需要建造它们的工程师协助或为其编程。
在这条发展道路上,研究人员正设法自动标记数据,这些数据来自手机或物联网(IoT)节点等装置。
WD首度科学家Janet George说:“Google说现在我们需要大量的运算,在这个过度阶段,一旦事情被自动标记,你只需要检索新增的内容,这才更像是人类处理数据的方式。”,”
无监督学习打开了加速机器智能时代的大门,有些人认为这是数字化的必杀技。另一些人则担心技术可能会在没有人为干预的情况下失望导致灾难。Google TPU计划负责人Norm Jouppi说:“这让我感到害怕。”
同时,从事半导体工作的学者对未来的AI芯片也有其长远展望。
Patterson说,英特尔、Graphcore和Nvidia“已经在制造全标线芯片,下一步就是3D技术。当摩尔定律发展如火如荼时,由于担心可靠性和成本问题,人们在看到复杂封装技术之前就临阵退缩了。如今摩尔定律即将结束,我们将在封装方面看到许多实验。”
最终的竞赛是创造出新型的电晶体,可以在逻辑和存储器层上堆叠。
美国圣母大学(University of Notre Dame)电气工程教授Suman Datta看好负电容铁电电晶体技术可能成为这种芯片的基础。他在最近召开的所谓的单体3-D结构会议上展望了该领域的前景。这一类设计应用以及3-D NAND快闪存储器的进展都采用on-die芯片堆叠技术来实现。
来自美国柏克莱大学、麻省理工学院(MIT)和史丹佛大学(Stanford)的团队将在二月份的国际固态电路会议(ISSCC)上展示一种类似的先进技术架构。该芯片将磁阻式RAM (ReRAM)结构与碳奈米管制成的逻辑元件共同堆叠在芯片上。
该装置是从DNN获得灵感,并且被编程为近似模式,而非目前电脑所使用的确定性数字。发表该技术论文的UC Berkeley教授Jan Rabaey说,这个所谓的高维度运算模式使用了几万个维度的向量作为运算元素。
Rabaey说,这种芯片可以从例子中学习,并且比传统系统所需的操作更少得多。其测试芯片将很快问世,它使用振荡器阵列作为类比逻辑元件,并与相关存储器阵列中ReRAM单元搭配运作。
Rabaey在IEEE AI研讨会上表示:“我梦想的引擎是可以随身携带,现场为我提供指导......我的目标是推动AI以小于100mV运行。我们需要重新思考如何运算,并从基于演算法的系统转向基于数据的系统。”
编译:Mike Zhang
(参考原文:AI Silicon Preps for 2018 Debuts,by Rick Merritt)
史海拾趣
|
请问一下,一个任务accept产生的socket描述符怎么在另一个task的send函数中用,把那个Socket ID作为全局可以吗???谢谢! 有两个任务,一个接收任务taskRecv,一个发送任务taskSent,现在是PC上一个连接过来,taskRecv接受(accept)后产生一个socket ID ,我要在taskSent的send函数中使用这个Socket ID 与pc通信,可以把这个socket ID设为全局的吗????谢谢!!!! ...… 查看全部问答> |
|
参与了活动,有幸获得launchpad开发板。。。。感谢一下eeworld! 顺便做了个小测试。。。 launchpad本身的是测温度,那么,我也用其它测温芯片试一下1822,DS75X,MCP9800.......... 当然都是用IO端口模拟1-wire,I2C,UART,............. ...… 查看全部问答> |
|
关于30FSPI通讯的问题,困扰我好长时间了,请大侠帮忙 本人刚开始用PIC,要通过30F6011往30F2020里面送数据,现在先通过6011往2020里面送一个数据,再把这个数据送给2020的占空比寄存器,改变2020PWM2的占空比。但总是传输的数据不稳定,传送同样的 ...… 查看全部问答> |
|
RAW-OS移植到MB9BF618S,并且LWIP也已经移植好,能够实现收发(PC能够ping通) 现在出现了一个问题: LWIP创建的任务名字为tcpip_thread ,优先级设置为2,当整个程序运行起来后,只有任务tick_task _obj 和tcpip_thread 在相互切换,其他任务(m ...… 查看全部问答> |




