历史上的今天
返回首页

历史上的今天

今天是:2025年08月19日(星期二)

正在发生

2020年08月19日 | 含光800 NPU闪亮Hotchips 2020

2020-08-19 来源:EEWORLD

去年,阿里巴巴达摩院院长张建锋发布了号称“全球性能最强的含光800芯片”,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。那么这款芯片强在哪里呢?在2020的Hotchips上,阿里介绍了利用含光800 NPU在数据中心的AI推理解决方案。

 

 

发言人详细的介绍了NPU基本构架:

 

4核环形总线

192mb本地内存,分布式共享,无DDR

PCIe 4.0 x16

每个核都有三个引擎: Tensor, Pooling, Memory

 

 

这是张量引擎的吞吐量,数据重用和融合ops,减少了数据移动

内存引擎可以调整数据的排列

 

 

 

此外,它还支持稀疏数据的压缩模型,量化INT16 / INT8。

 

特定领域指令集,可伸缩的任务映射

 

 

可利用PCIe 进行多芯片流水线技术

 

 

在batch 1阶段,含光800吞吐量由于Batch 128的V100

 

 

 

 

含光800成绩单:

 

1、离线模式:含光800超谷歌和英伟达

 

在芯片测试中,离线模式测试的目的,是评估芯片推理的最大吞吐量,可以体现芯片的基本功、考验计算、存储、通信的设计所能够达到的最佳性能。

 

在该项测试中,含光800的成绩是69306.60

 

image/sec,是第二名Google TPU v3的2.11倍。Google TPU v3.8用了4颗芯片,因此论单芯片性能,含光800是TPU v3的8.5倍。

 

2、服务模式:是第二名Google

 

TPU v3的2.82倍

 

服务模式,主要用来测评芯片系统单张图片的吞吐量,含光800的成绩是45169.48 image/sec,是第二名Google TPU v3.8的2.82倍。

 

3、多路模式:是第二名的Habana

 

Goya的3.84倍

 

多路模式,则是评估芯片系统所能支撑的视频流的最大路数。这里的视频流,定义为20帧/sec。在多路模式测试中,含光800最大可同时处理2692路视频流,是第二名的Habana Goya的3.84倍。

 

4、单路模式:比第二名Habana的Goya快1.41倍

 

单路模式测试,是用于评估芯片系统的单张图片请求吞吐量。它强调单图片的推理场景下,芯片的最小反应延迟,反应越快越“聪明”,数值越小越优秀。这项测试中,含光800的成绩,是0.17毫秒。比第二名Habana的Goya快1.41倍。

 

 

含光800性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。

 

 

 

含光800已开始应用在阿里巴巴内部核心业务中。例如,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。

 

拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。

 

含光800将通过阿里云对外输出AI算力。基于含光800的AI云服务已正式上线,相比传统GPU算力,性价比提升100%。

 

目前,含光800主要用于云端视觉场景,现已大规模应用于阿里巴巴集团内多个场景,如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。


推荐阅读

史海拾趣

CINCH公司的发展小趣事

随着业务的不断发展,CINCH公司开始寻求市场拓展和战略合作的机会。公司积极与国内外知名企业建立合作关系,共同开发新产品、拓展新市场。同时,CINCH公司还加强了对新兴市场的关注,通过参加国际展会、举办技术研讨会等方式,提升品牌知名度和影响力。这些举措有效地推动了公司的市场拓展和业务发展。

EasySync公司的发展小趣事

EasySync公司一直秉承环保理念和社会责任。公司在生产过程中注重节能减排和资源循环利用,努力降低对环境的影响。此外,公司还积极参与公益事业和社会活动,为社会做出积极贡献。这些举措不仅提升了公司的社会形象,也为公司的可持续发展奠定了坚实基础。

请注意,以上故事均为虚构内容,仅供参考。如果您对EasySync公司的实际发展历程感兴趣,建议您查阅相关官方资料或新闻报道。

Electronic Concepts Inc公司的发展小趣事

随着市场的竞争加剧,ECI意识到只有不断创新才能在行业中立足。在总经理张女士的领导下,公司投入大量资源进行研发,成功推出了一系列具有竞争力的新产品。其中,一款集成了先进算法的智能传感器,因其高精度和低功耗特性,在市场上大受欢迎。这一创新不仅提升了ECI的品牌形象,也为公司带来了丰厚的利润。

FUJIKURA公司的发展小趣事

进入21世纪后,ECI开始将目光投向国际市场。在海外市场部经理赵先生的努力下,ECI成功打入欧洲和北美市场。面对不同的文化背景和市场需求,ECI积极调整策略,提供符合当地需求的产品和服务。通过不懈努力,ECI在国际市场上的份额逐年增长,为公司的发展注入了新的动力。

Collins Electronics Corp公司的发展小趣事

在电子行业竞争日益激烈的情况下,Collins Electronics Corp面临着巨大的挑战。为了保持竞争优势,公司加大了研发投入,不断优化产品性能。同时,他们还加强了对市场趋势的研究,以便及时调整产品策略。在一次行业技术革新中,公司凭借敏锐的市场洞察力和强大的研发能力,成功推出了一款符合市场需求的新产品,赢得了市场份额。

Genesis Microchip公司的发展小趣事

随着第二次世界大战的爆发,全球对国防电子产品的需求激增。GI凭借其在电子技术领域的深厚积累,迅速调整战略方向,积极投身于国防电子产品的研发与生产。公司开发的潜水艇探测设备和其他关键国防电子产品在战争中发挥了重要作用,赢得了军方的高度认可。这一阶段的成功不仅为GI带来了丰厚的利润,也极大地提升了公司在电子行业中的知名度和地位。

问答坊 | AI 解惑

DSP在自动目标识别中的应用

自动目标识别(ATR)算法通常包括自动地对目标进行检测、跟踪、识别和选择攻击点等算法。战场环境的复杂性和目标类型的不断增长使ATR算法的运算量越来越大,因此ATR算法对微处理器的处理能力提出了更高的要求。由于通用数字信号处理芯片能够通过编 ...…

查看全部问答>

SOS,在线等,呼叫驱动带入CString的问题

各位弟兄: 我呼叫驱动这样呼叫的: typedef  struct  {         CString DataType;         CString number_HEX; }DATA_GETDATA_INFO; DATA_GETDATA_INFO        ...…

查看全部问答>

请教关于PXA270的USB驱动???

各位高手:     请问哪位做过PXA270的USB驱动,在BSP中USB驱动下的DEF文件中: EXPORTS         HCD_Init                 HCD_PowerUp   &n ...…

查看全部问答>

avr 单片机cpc指令的问题

看这条指令的意思好象是 rd 和 Rr+C 来比较 。但我测试结果总是不相等。我用的是AVR Studio4.17 大家帮我看看测试代码。 是不是我理解有问题啊 ldi r1,0x10 ldi r3,0x12 lp: sec cpc r3,r1 brne lp1 rjmp lp2 lp1: inc r1 rjmp lp lp2: de ...…

查看全部问答>

求两个芯片资料 MT29C1G24MADLAJA

求两个芯片资料 MT29C1G24MADLAJA 和 MT29C2G24MAKLACG-6  谢谢各位,谁如果有的话麻烦能发我份吗?谢谢我需要的是技术文档,对时序,参数,寄存器等的各种配置。在网上找不到,官网也没有谢谢jiangpeng6430@126.com…

查看全部问答>

求助高手!

求助高手!为什么用来存储红外解码的四个8位二进制的数据,只在中断函数里面是正确的,在主函数里面始终不对。请高手帮我看下程序。谢谢!!!…

查看全部问答>

欢迎探讨:应该怎样构架应用程序

       随着电子技术的不断发展,单片机已经从8位/16位时代慢慢转向了32为的ARM时代。但是我们却认真可以发现很多工程师硬件上虽然从51时代转向了ARM时代,但是在软件上还能够发现51的影子。没有从应用程序上重新构 ...…

查看全部问答>

【C2000 LaunchPad】单相交流电压+电流表

项目名称:单相交流电压、电流表 功能描述:测量某一相交流支路的电压、电流、频率、功率因数 实施方案描述:互感器采样信号,经运放调理进AD,通过算法(fft或者均方根)计算交流电压、电流、频率、功率因数。 预期测量范围:电压0~300V,电流0 ...…

查看全部问答>

关于DSP的选型和DSP图像处理方案的可行性疑问

刚接触DSP,是以后的研究课题。想用C6000系列的芯片实现比较简单的图像处理,不知道现在主流的芯片是什么? DSP芯片加上外围电路再加上一个无线通讯模块的话,造价大约是多少? 有经验的前辈能给个范围吗?体积最小能到多少?多谢多谢!…

查看全部问答>