历史上的今天
返回首页

历史上的今天

今天是:2025年01月31日(星期五)

2018年01月31日 | 什么样的芯片才能够真正适应终端智能的需求

2018-01-31 来源:互联网

2017年,人工智能最火的风口一定是AI芯片。


AI芯片的出现,与深度学习技术的成熟及应用密不可分。深度学习的过程可以简化理解为利用大量标注的数据进行训练,训练出一个行之有效的模型,再将这一模型运用于新数据的推断。


这个耳熟能详的爆款算法是建立在多层大规模神经网络之上的,后者本质上是包含了矩阵乘积和卷积操作的大运算量函数。往往需要先定义一个包含回归问题的方差、分类时的交叉熵的代价函数,再数据分批传递进网络,根据参数求导出代价函数值,从而更新整个网络模型。这通常意味着至少几百万次的相乘处理,计算量巨大。通俗来说,包含了数百万次A*B+C的计算,算力消耗巨大。


为解决这一问题,AI芯片应运而生。2017年开始,围绕AI芯片,半导体行业,战事升级,赛场上新老玩家暗潮涌动,连横合众,大有“AI芯片太多,设备都不够用了”之势。


时间进入2018年,备受关注的大小公司都将正式推出自研AI芯片。这些芯片也都被业界寄予厚望,是否能解决或者部分解决终端计算难题?什么样的芯片才能够真正适应终端智能的需求?


这些都是我们十分好奇且关注的问题。于是也与一些创业者进行了交流。本文即是其中的一篇,来自于与探境科技CEO鲁勇的访谈。目前探境科技正研发适用于终端的AI芯片,在创业前鲁勇曾在芯片厂商Marvell任高管,从事过存储芯片的相关工作,而存储正是计算之外所有芯片另一核心。基于过往的经历、经验与观察,鲁勇认为,做适用于终端的AI芯片,除了要在计算方面提升,存储优化同样至关重要。


以下为正文,来自36氪对鲁勇的访谈内容,36氪基于访谈内容对其观点进行了整理。



AI算法在芯片实现时遇到的核心问题不是计算资源而是存储问题,强如GPU提供众多的计算资源,而实际计算能力与计算资源大为降低。


概括来说,存储问题分为两个部分,一个是带宽问题,一个是功耗问题,这两个问题的解决其实也是耦合在一起的。


具体来说,深度学习算法使用大量存储资源,即包括静态模型参数,也包括网络层之间的动态数据。对于静态模型参数权重,动辄几十兆上百兆样本数量,无法在片上SRAM保存,因此需要存入外部DRAM。DRAM与AI计算芯片间带宽有限,如果芯片上计算资源很大,但受存储带宽的瓶颈限制,实际计算力大为下降。


打比方来说,负责存储的DRAM和与负责计算的芯片就像是位于河两岸的仓库,整个运算的过程可以类比从存储的仓库搬取数据、搬运过桥,将数据搬入计算的单元进行处理,并高速循环往复。而当前的AI芯片技术重点提升将数据搬入计算单元后的处理速度,但因为搬出数据、过桥的过程基本未发送变化,因此整体的效率提升还相对有限。


与之对应的方法即是克服存储带宽的手段:一是减少数据量,降低所需数据带宽,就是说想办法只要从仓库搬出少量数据,就可以达到同样的效果;二是更科学的调度数据使用,提升调度的效率。


(1)减少数据容量


如果数据量降低了,这将总体上减少对DRAM的访问,在DRAM物理带宽保持不变的前提下,降低了DRAM的依赖性,提高了整体性能,同时减少DRAM访问也将大幅减少系统功耗开销。因此首先需要解决的问题是减少静态参数权重的大小。通常的解决办法包括参数定点化,将每个32bit浮点数减少为16bit以下的定点数,至少能降低50%甚至75%的存储容量,也同样幅度的降低了存储带宽的需求。实践证明16bit定点化可以采用线性量化的方式,而16bit以下定点化根据模型的不同,有些需要采用非线性量化才可以达到维持模型性能的目的。


目前主要有模型剪枝、设计适于终端设备的简化网络两种实现方式。模型剪枝作为进一步降低模型容量和存储带宽的方式,是基于神经网络模型存在大量冗余信息的基础,而另一种从源头开始重新设计适于终端设备的简化网络的方式也在逐渐兴起,从同样规模的网络性能来看,新设计的网络可能比旧网络通过剪枝再训练的方式更为简单快捷,性能也更好。


(2)更科学的调度数据使用


深度学习的计算大量使用乘累加,即完成AXB+C的工作,这种乘累加单元(MAC)每次运算需要三个输入,完成一个输出。参与运算的数据包括事先准备好的权重参数和网络层产生的中间数据。每个乘累加完成后的输出通常也会作为下一次运算的输入,因此如何调度这些数据成为关键。


功耗角度来说,从DRAM获取数据所消耗的功耗最大,从SRAM中获取数据其次,从本地寄存器中获取数据消耗功耗最低,但从成本角度考虑刚好相反,因此这三个不同层次的存储器的使用非常关键,我们希望尽可能减少DRAM的访问,最理想的结果是仅从DRAM中读取一次事先存好的模型参数,而不依赖DRAM做任何其他工作。


从宏观上看,整个深度学习运算计算一次,进入MAC的总数据量远大于静态数据的容量,因为无论是模型参数还是中间数据都多次被重复使用,因此实际所需的数据带宽非常大,并且当所有这些数据都仅通过DRAM被缓存使用时,其功耗开销也是惊人的,因此充分利用各级缓存的特性非常重要,设计一个合理的数据流,将多次被重复使用的数据放在离计算资源较近的地方,少量读取的数据放在DRAM中,将提高计算性能,降低系统功耗。



那么问题来了,如何才能设计一款真正适用于终端的AI芯片。


简单的设计一个卷积加速器并不能带来深度学习计算性能上的提高,合格的计算架构需要结合对存储问题的分析来设计,不仅要考虑计算架构,也要考虑存储的数据流控制,因此深度学习的计算特点并非是一个简单粗暴的并行计算问题。


首先还是要考虑浮点和定点计算的问题,8 位的整数乘法比IEEE 754标准下16位浮点乘法降低 6 倍的能耗,占用的芯片面积也少 6 倍;而整数加法的差异是13倍的能耗与38倍的面积,因此终端AI芯片采用定点计算将获得巨大收益。当定点成为设计目标的时候,要充分考虑软硬件的结合,不同网络对定点位数的影响程度是不一样的,数据量化的具体方式也有差异,有线性量化也有非线性量化的方法,因此针对应用场景结合软件协同设计非常有必要。


其次深度学习不是简单粗暴的并行计算但仍然有明显的并行计算特征,因此考虑存储问题后放入更多的计算资源会大幅提高计算性能。首先将最多被重复使用的数据放在接近计算资源的地方,这符合较为流行的In Memory Computing(存储计算一体化)的思想,并且考虑到当前工业水平,这更为实际,而通过重新设计包括计算单元的存储单元或采用ReRAM等方式是未来的 发展方向。


第三要考虑到深度学习数据的另一重要特性,即数据稀疏化特性,也就是说在参与运算的数据中有大量的零值数据存在,这些零值数据即可以在存储中被压缩存放,降低存储容量和带宽需求,也可以在计算中被进一步调度,减少运算压力,提高运算的有效性能。这些零值数据不仅存在于模型参数中,也大量存在于神经网络各层运算的中间数据中,这两方面都需要进行考虑。稀疏数据在多核心并行计算中的调度是个复杂的问题,而不同网络结构也会带来不同的影响,因此将软硬件协同设计,动态调度的调度器是非常复杂的设计难点。


最后要考虑针对不同网络的资源有效利用率问题,由于神经网络差异化较大,如果希望针对不同网络都有较高的资源有效利用率,则需要在较细的颗粒度上进行优化,进一步加深了数据流调度器的复杂度。

推荐阅读

史海拾趣

ETA Electric Industry Co Ltd公司的发展小趣事

进入新世纪,ETA Electric Industry Co Ltd意识到技术创新是企业发展的关键。于是,公司开始加大研发投入,引进了一批高素质的研发人员。他们专注于开发新型电子元器件,特别是在微型化、高性能方面取得了显著成果。其中,他们研发的一种新型微型电容器,因其体积小、性能稳定而广受好评。这一技术创新不仅提升了公司的市场竞争力,还为公司赢得了更多的合作机会。

ETTINGER公司的发展小趣事

Ettinger与英国著名汽车品牌Bentley建立了长期合作伙伴关系。作为Bentley汽车皮件配饰和皮具产品的指定供应商,Ettinger为Bentley提供了高品质的皮具产品,进一步提升了品牌的知名度和影响力。这种合作伙伴关系的建立,也为Ettinger带来了更多的商业机会和发展空间。

Baneasa SA公司的发展小趣事

随着国内市场的逐渐饱和,Baneasa SA开始将目光投向海外市场。公司制定了国际化的发展战略,通过在欧美等发达国家设立分支机构、参加国际展会等方式积极开拓国际市场。这些努力使得Baneasa SA的产品逐渐在国际市场上占据了一席之地,公司的业务范围也得到了进一步扩大。

Frequency Sources公司的发展小趣事

随着技术的不断成熟和市场的日益扩大,Frequency Sources公司开始积极拓展国内外市场。公司通过参加国际电子展会、建立海外销售网络、与跨国企业建立合作关系等方式,不断提升品牌知名度和市场份额。同时,公司还针对不同地区的市场需求,定制化开发符合当地标准的产品和服务,进一步增强了市场竞争力。在国际化战略的推动下,公司的业务遍布全球多个国家和地区,实现了跨越式发展。

Cooper Tools(Eaton)公司的发展小趣事

面对日益严峻的环境问题和不断变化的市场需求,Frequency Sources公司积极响应国家环保政策和可持续发展战略,致力于研发绿色、环保、高效的频率源产品。同时,公司还继续加大在技术创新方面的投入力度,不断推出具有自主知识产权的新产品和新技术。这种可持续发展的理念和技术创新的精神使得公司在激烈的市场竞争中始终保持领先地位并实现了持续健康的发展。

需要注意的是,以上故事是基于电子行业的一般情况和频率源技术的特点来构建的虚构故事,并不直接对应任何具体公司的实际情况。在实际应用中,请根据具体公司的历史和发展情况进行调整和修改。

Chemtronics公司的发展小趣事

Chemtronics一直坚守严格的质量标准。公司自早期起就遵循ISO9001:2000的质量标准来制造产品,确保每一款产品都达到同等高质量。这种对质量的坚持不仅赢得了客户的信任,也为公司在竞争激烈的电子行业中树立了良好的口碑。

问答坊 | AI 解惑

有效应对多频手机中的天线设计问题

现在手机中的射频信号通道越来越拥挤。蜂窝电话已经从双频向三频甚至四频快速发展。这些复杂手机还需要处理来自外围无线设备的各种信号,如蓝牙、Wi-Fi和GPS。而随着WiMAX和LTE(4G)的加入,这种复杂度将越来越高。在移动电话中,天线开关控制着天线 ...…

查看全部问答>

Protel.DXP.电路设计制版.100例

Protel.DXP.电路设计制版.100例…

查看全部问答>

DDraw怎样获取显存大小?

我用这个方法,但是好像获取的大小有问题,不知道这个方法是不是正确的方法,还没有更好的办法? DDCAPS   ddcaps;      ddcaps.dwSize   =   sizeof   DDCAPS;    lpdd ...…

查看全部问答>

c#窗体问题1

c#有没有什么方法,能够获取当前桌面所有正在运行的窗体?…

查看全部问答>

内存扩容问题,急???

128M扩到512M,我用的是uboot+NK.nb0,uboot已经改好ram初始化部分,没有开mmu,在uboot下测试512内存读写正常,wince改了config.bib中ram大小,oemtable也改了内存映射,但是现在内核跑到oeminit跑完就死了,不好调试。试着用oemgetextensiondram( ...…

查看全部问答>

linux下 是如何操作U盘的,是不是按正常的文件操作啊?

能顺便说下U盘的存储原理吗?和硬盘有什么不同?…

查看全部问答>

wince4.2PB编译时出现0xffffffff错误

如题,想问一下是什么原因啊?…

查看全部问答>

学驱动开发难吗?我想学

目前主要会C方面的东西,驱动开发都需要哪个方面的知识?最快多长时间能学完工作?…

查看全部问答>

STM32可以通过SPI实现一主多从的多机连接方式么?

我想做一个一主多从(1对8甚至1对16)的系统, 想选用SPI作为板级通讯总线,不知这样做能不能实现? 如果能,那么在设计时要注意什么? 我现在想到的是加254增加驱动,还有就是适当的降低SPI速度以降低误码率, 不知我的这些想法对不对?…

查看全部问答>

wire型和reg型的一点小疑惑

今天在看书时发现一点疑惑,问题大致是这样的: 一个电路网络,要对其中一个2输入与门的输出(定义为tmp吧,其实此处并不存在端口或变量)进行一些赋值操作,。在Verilog编程中按说是应该把其定义为wire型变量,可是今天看的一个例子却定义成了reg ...…

查看全部问答>