历史上的今天
今天是:2025年08月19日(星期二)
2020年08月19日 | 含光800 NPU闪亮Hotchips 2020
2020-08-19 来源:EEWORLD
去年,阿里巴巴达摩院院长张建锋发布了号称“全球性能最强的含光800芯片”,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。那么这款芯片强在哪里呢?在2020的Hotchips上,阿里介绍了利用含光800 NPU在数据中心的AI推理解决方案。

发言人详细的介绍了NPU基本构架:
4核环形总线
192mb本地内存,分布式共享,无DDR
PCIe 4.0 x16
每个核都有三个引擎: Tensor, Pooling, Memory



这是张量引擎的吞吐量,数据重用和融合ops,减少了数据移动

内存引擎可以调整数据的排列


此外,它还支持稀疏数据的压缩模型,量化INT16 / INT8。

特定领域指令集,可伸缩的任务映射

可利用PCIe 进行多芯片流水线技术



在batch 1阶段,含光800吞吐量由于Batch 128的V100



含光800成绩单:
1、离线模式:含光800超谷歌和英伟达
在芯片测试中,离线模式测试的目的,是评估芯片推理的最大吞吐量,可以体现芯片的基本功、考验计算、存储、通信的设计所能够达到的最佳性能。
在该项测试中,含光800的成绩是69306.60
image/sec,是第二名Google TPU v3的2.11倍。Google TPU v3.8用了4颗芯片,因此论单芯片性能,含光800是TPU v3的8.5倍。
2、服务模式:是第二名Google
TPU v3的2.82倍
服务模式,主要用来测评芯片系统单张图片的吞吐量,含光800的成绩是45169.48 image/sec,是第二名Google TPU v3.8的2.82倍。
3、多路模式:是第二名的Habana
Goya的3.84倍
多路模式,则是评估芯片系统所能支撑的视频流的最大路数。这里的视频流,定义为20帧/sec。在多路模式测试中,含光800最大可同时处理2692路视频流,是第二名的Habana Goya的3.84倍。
4、单路模式:比第二名Habana的Goya快1.41倍
单路模式测试,是用于评估芯片系统的单张图片请求吞吐量。它强调单图片的推理场景下,芯片的最小反应延迟,反应越快越“聪明”,数值越小越优秀。这项测试中,含光800的成绩,是0.17毫秒。比第二名Habana的Goya快1.41倍。


含光800性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。


含光800已开始应用在阿里巴巴内部核心业务中。例如,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。
拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。
含光800将通过阿里云对外输出AI算力。基于含光800的AI云服务已正式上线,相比传统GPU算力,性价比提升100%。
目前,含光800主要用于云端视觉场景,现已大规模应用于阿里巴巴集团内多个场景,如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。
史海拾趣
|
自动目标识别(ATR)算法通常包括自动地对目标进行检测、跟踪、识别和选择攻击点等算法。战场环境的复杂性和目标类型的不断增长使ATR算法的运算量越来越大,因此ATR算法对微处理器的处理能力提出了更高的要求。由于通用数字信号处理芯片能够通过编 ...… 查看全部问答> |
|
各位弟兄: 我呼叫驱动这样呼叫的: typedef struct { CString DataType; CString number_HEX; }DATA_GETDATA_INFO; DATA_GETDATA_INFO   ...… 查看全部问答> |
|
各位高手: 请问哪位做过PXA270的USB驱动,在BSP中USB驱动下的DEF文件中: EXPORTS HCD_Init HCD_PowerUp &n ...… 查看全部问答> |
|
看这条指令的意思好象是 rd 和 Rr+C 来比较 。但我测试结果总是不相等。我用的是AVR Studio4.17 大家帮我看看测试代码。 是不是我理解有问题啊 ldi r1,0x10 ldi r3,0x12 lp: sec cpc r3,r1 brne lp1 rjmp lp2 lp1: inc r1 rjmp lp lp2: de ...… 查看全部问答> |
|
求两个芯片资料 MT29C1G24MADLAJA 和 MT29C2G24MAKLACG-6 谢谢各位,谁如果有的话麻烦能发我份吗?谢谢我需要的是技术文档,对时序,参数,寄存器等的各种配置。在网上找不到,官网也没有谢谢jiangpeng6430@126.com… 查看全部问答> |
|
随着电子技术的不断发展,单片机已经从8位/16位时代慢慢转向了32为的ARM时代。但是我们却认真可以发现很多工程师硬件上虽然从51时代转向了ARM时代,但是在软件上还能够发现51的影子。没有从应用程序上重新构 ...… 查看全部问答> |
|
项目名称:单相交流电压、电流表 功能描述:测量某一相交流支路的电压、电流、频率、功率因数 实施方案描述:互感器采样信号,经运放调理进AD,通过算法(fft或者均方根)计算交流电压、电流、频率、功率因数。 预期测量范围:电压0~300V,电流0 ...… 查看全部问答> |
|
刚接触DSP,是以后的研究课题。想用C6000系列的芯片实现比较简单的图像处理,不知道现在主流的芯片是什么? DSP芯片加上外围电路再加上一个无线通讯模块的话,造价大约是多少? 有经验的前辈能给个范围吗?体积最小能到多少?多谢多谢!… 查看全部问答> |




