[MCU] 国产NPU芯片进程如何？

fish001 2019-7-6 18:20 楼主

近年来，华为和寒武纪等芯片公司研究NPU成为业内关注的焦点。NPU也叫嵌入式神经网络处理器，它采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。

NPU芯片的优势

NPU是神经网络处理器，在电路层模拟人类神经元和突触，并且用深度学习指令集直接处理大规模的神经元和突触，一条指令完成一组神经元的处理。相比于CPU和GPU的冯诺伊曼结构，NPU通过突触权重实现存储和计算一体化，从而提高运行效率。但NPU也有自身的缺陷，比如不支持对大量样本的训练。

高功耗是很多顶尖人工智能技术被诟病的。IBM20世纪的“深蓝”和谷歌2016的AlphaGo因其需要由巨大的数据计算支撑，前者使用超级计算机，后者使用服务器集群，无法脱离恒定温度和湿度的机房。AlphaGo下一盘棋光电费就需要3000美元。张韵东将它们称之为“一场科学实验”，离技术落地、投入应用还有较远的距离。这凸显了嵌入式NPU的小型化、低功耗和低成本优势，加快人工智能技术落地应用。例如无人机对摄像头的重量和功耗有很高的要求，否则会影响起飞和续航能力。

国产NPU芯片进程

2016年6 月 20 日，中星微数字多媒体芯片技术国家重点实验室在北京宣布，已研发成功了中国首款嵌入式神经网络处理器芯片，成为全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片，并取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上，最高能达到98％的准确率，超过人眼的识别率。

2018年，阿里巴巴达摩院研发一款神经网络芯片——Ali－NPU，该芯片将运用于图像视频分析、机器学习等AI推理计算，该芯片的性价比将是目前同类产品的40倍。未来将会更好的实现AI智能在商业场景中的运用，提升运算效率、降低成本。CPU、GPU作为通用计算芯片，为处理线程逻辑和图形而设计，处理AI计算问题时功耗高，性价比低，在AI计算领域急需专用架构芯片解决上述问题。

2018年10月31日，杭州国芯率先发布了搭载NPU的物联网人工智能芯片GX8010，引起业界广泛关注。早在2016年初，国芯人就开始着手神经网络处理器的开发，投入重兵深入研究，不仅完成了第一代神经网络处理器gxNPU，还完成了整体SOC芯片的设计和量产。

寒武纪发表了高性能机器学习处理器芯片“寒武纪 MLU100”以及“寒武纪 MLU200”。两款芯片主要针对服务器端的智能处理需求，分别针对推理与训练两个用途。有别于“神经网络处理器”的常见称呼，全新的服务器芯片产品则是以“机器学习处理器”作为命名。

在华为全联接大会2018上，华为发布了两款AI芯片和全栈全场景AI解决方案，正式打响了进攻人工智能的号角。去年在德国柏林的IFA展上，华为正式发布了麒麟970芯片，该芯片中首次内置了神经元网络单元以完成人工智能计算。同时发布两款AI芯片，华为昇腾910和昇腾310，均采用华为自研的达芬奇AI架构，属于全球第一个覆盖全场景的人工智能IP和芯片系列。