历史上的今天
返回首页

历史上的今天

今天是:2025年06月25日(星期三)

正在发生

2019年06月25日 | 重装上阵!Habana携2款深度学习芯片叫板英伟达

2019-06-25 来源:EEWORLD

神经网络和人工智能是目前最炙手可热的科技,它们应用广泛,在各种你喜欢或者不喜欢的社交平台上助力识别图像,在智能音箱上语音识别,在智能手机里担任数字语音助理,神经网络比人类有更好的识别模式能力。不久,它们会很快应用到注入安全摄像头这样的嵌入式设备中,带来更多意想不到的体验。

 

近日,人工智能处理器开发商Habana Labs在京召开发布会为我们隆重介绍了最新研制的两款AI芯片及解决方案,分别用于推理和训练,适合数据中心、自动驾驶等应用,竞争目标直指用于AI领域最高性能的CPU和英伟达GPU。

 

Goya—三倍性能,架构创新

 

Goya产品是一款基于PCIE的产品,主要是用于传统服务器,主要是未来插在服务器当中提供推理和预测的。据介绍,Goya的性能比目前最好的用于推理和训练GPU产品高三倍。从能耗比来讲,也比GPU有两倍的优势。在实时处理上,Goya的延迟也比GPU要低很多,几乎可以做到实时处理图片。

 

Goya之所以能有着如此出众的性能,是得益于Habana对芯片的架构进行了独有的设计。Habana Labs的首席商务官Medina说到:“GPU和CPU他们各自是面对于通用计算或者是常用的图形处理,所以他们从架构上来讲并不适合于做人工智能这方面的计算工作。但是Goya是完全针对于人工智能的需求来设计的。”而在传统运行当中,为了实现处理性能的优越性就会把Batch Size最大化,必须把很多内容加载进去,所以无形当中就会增加计算当中的延迟。但Goya凭借着自身低延迟特性,可以实现在Batch Size等于1的情况下,一次可以处理单张图片的能力,甚至实现到一秒钟处理7000多张的性能。

 

与英伟达的V100 GPU相比,HL-1000驱动的Goya在ResNet-50上进行推理时,提供了超过4倍的吞吐量,2倍的能源效率,以及一半的延迟。作为代表Habana第二次进军AI市场的武器,它可以达到每秒1,650张图像,批量大小为64。对于V100每秒1,360张图像的最佳训练结果显然有所突破。据了解,Goya已可支持Facebook的机器学习编译器Glow,其驱动业已集成在Linux中,并可无缝从CPU或GPU中迁移。

 

 

Medina介绍,精度是推理的一个重要指标,在整形化(quantization)过程中必然会造成一些信息的丢失,Goya有着很强的算法团队,即使做了这样的量化,整个精度损失也是非常小的。此外,通过Habana的软件站—Synapse AI可以直接支持各种各样的框架结构,客户可在框架上实现的工作可以直接简单部署到Goya处理器当中。

 

与RDMA的完美融合—Gaudi

 

 

Habana Gaudi™人工智能训练处理器,基于Gaudi的训练系统实现了比拥有相同数量的GPU系统高四倍的处理能力。此外,Gaudi™处理器的创新架构可实现训练系统性能的近线性扩展,即使是在较小Batch Size的情况下,也能保持高计算力。因此,基于Gaudi™处理器的训练性能可实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。

 

核心架构

 

Gaudi拥有8个VLIW SIMD(超长指令字,单指令多数据)张量处理器(TPC),专门为AI工作负载设计。不同之处包括所支持的数据类型——虽然两者都是混合精度,但Goya侧重于整数乘法器,而Gaudi 更侧重于更精确的数据格式,如BF16和FP32。

 

 

在推理处理器Goya上,Habana有着有DDR4内存,在Gaudi上,Habana配备了四个HBM2(高带宽内存,第二代)内存。因此,与Goya相比,它在吞吐量和片上内存方面实现了不同的平衡。而且Gaudi采用了OCP (Open Computer Project)加速器模型兼容的夹层加速卡,带有32GB的HBM2内存(HL-205),用于数据中心的8卡超级计算机盒(HLS-1)。Medina介绍:“训练解决方案对HBM2s的吞吐量非常大,所以我们对芯片内存大小不那么敏感,我们设计了专门的内存控制器来提供1 TB/s的吞吐量,这对于任何规模的处理器来说都是非常高的吞吐量。”

 

E:Muyan work新闻稿2019工作2019.6.19 Habana AIPIC微信图片_2019062017540418.jpg?imageView2/2/w/550

 

Gaudi最大的潜在优势将是提供大规模性能的能力,这对于构建更大、更复杂的神经网络一直是一个挑战。对于大多数训练设置,一旦超过8个或16个加速器,也就是说,一旦离开服务器机箱,性能就趋于平稳。Medina说,Gaudi的技术并非如此。他指出,同样的ResNet-50训练扩展到数百个HL-2000处理器,其性能接近线性增长。与V100相比,Habana技术能够在650处理器的水平上提供3.8倍的吞吐量优势。

 

C:Users1Desktop1.jpg?imageView2/2/w/550

 

Roce RDMA—促进深度学习的催化剂

 

先科普一下,RoCE(RDMA over Converged Ethernet)是一种允许通过以太网使用远程直接内存访问(RDMA)的网络协议。通俗的说可以看成是远程的DMA技术,为了解决网络传输中服务器端数据处理的延迟而产生的。RDMA允许用户态的应用程序直接读取或写入远程内存,而无内核干预和内存拷贝发生。起初,只应用在高性能计算领域,最近,由于在大规模分布式系统和数据中心中网络瓶颈越来越突出,逐渐走进越来越多人的视野。

 

C:Users1Desktop1.jpg?imageView2/2/w/550

 

在今年的GTC大会上,英伟达首席执行官Jensen Huang将RoCE作为一种大大提高深度学习工作可扩展性的方法。RDMA 协议来自于高性能计算领域,它改进了传统的 TCP/IP 协议栈在高速网络下的诸多缺点,使得网络通信数据传输不再经过内核或 CPU,取而代之的则是直接通过网卡读写内存来进行,从而在应用上能够充分利用万兆以上的网络带宽。显然英伟达看到了这一走势,以69亿美元高价收购数据中心InfiniBand网络的绝对王者——以色列创企Mellanox。

 

Habana的思路也和Jensen Huang观点不谋而合,并坚信RoCE是扩展人工智能的完美解决方案。Gaudi集成了芯片上的RoCE,配备10个100千兆以太网端口。在类似于HLS-1的系统中,这10个片上端口中的一些可以分配给各个Gaudi 处理器之间的非阻塞all-to-all连接。因此,通过提供这种级别的RoCE集成,释放了客户设计无限规模系统的能力,从小系统到大的系统,真正给予他们投资于人工智能培训加速的空间。另外,夹层卡是Habana的HLS-1服务器的基础,这是一种开放硬件计算加速器模块形式。

 

数据并行化、层级化保证计算效率

 

Medina描述了如何将端口配置为20 50GB端口,与16个Gaudi芯片并用,而不使用额外组件,或者使用现成的以太网交换机创建用于大规模数据并行的层次结构。以太网交换机也可以将64个Gaudi连接到一个网络跃点中,适合于模型并行训练的新兴技术,这需要巨大的带宽。因此通过这种数据并行化和层级化处理提高处理效率的方法,可以建立1千片Gaudi芯片的系统。在AI中,除了数据的并行化处理之外,还有模型的并行化处理:把大模型分成多个小模型,在每个处理器当中处理其中的一部分,这样实现一个模型的并行化。然而最大的挑战就是每个处理器之间的通讯的带宽,由于Gaudi有很多通讯接口,因此保证了通讯带宽。而英伟达GDX-2没有这么强的能力,因为英伟达的通讯接口有限,且采用了私有的协议。

 

E:Muyan work新闻稿2019工作2019.6.19 Abana AIPIC微信图片_20190620175404.jpg?imageView2/2/w/550

 

此外,Habana不支持跨多个处理器的缓存一致的全局内存空间。Gaudi设计师们认为缓存一致是一种性能杀手,无法有效扩展到少数加速器之外。从他们的角度来看,实现训练神经网络的可扩展性基本上是一个网络问题,使用RDMA可以非常有效地生成更大的模型。Habana通过在Gaudi芯片中插入大量网络带宽,以RDMA over Converted Ethernet(ROCE)的形式实现这一点。这样做能够使客户能够轻松地将Habana硬件放入现有的数据中心,以及使用各种网络提供商提供的标准以太网交换机构建AI集群。

 

就在此前,英伟达也推出了一款深度学习的超级计算机DGX2,相比而言Gaudi也有着自己的特色:在Gaudi系统当中,每片之间可以直接通讯,任何一个芯片之间都可以直接实现数据的交换;此外,与英伟达对NVLink所做的不同,Habana在单一芯片上集成了10个100GbE以太网端口,每个以太网端口均支持RDMA over Converged Ethernet (RoCE v2) 功能,省略了PCIE的交换,从而让AI系统通过标准以太网,在速度和端口数方面获得几乎无限的可扩展性;而且与DGX2在系统管理上有着明显的不同,对于DGX2而言数据通讯必须在PCIE一个总线上复用,因此在传输性能上会有一定的损失。Gaudi的数据传输和管理是分开的,在它的总线上没有任何复用,所以总线效率上也是最高的。

 

E:Muyan work新闻稿2019工作2019.6.19 Habana AIPIC微信图片_201906201754045.jpg?imageView2/2/w/550

 

在模型并行处理方面,DGX2提供的NVLink端口有限,最大支持16个并行处理。这就在很大程度上限制了模型并行处理能力。而Gaudi整个系统当中有8片这样子Gaudi Cards,可以把80个100G的以太网口对外实现互联,可以做到几十个,甚至几百个Gaudi系统之间并行的模型化处理。

 

借势而行

 

Habana Labs中国区总经理于明扬乐观表示,云端市场尤其是推理市场还处在高速发展的蓝海市场阶段,而5G和边缘计算也对云端有了更强的需求,未来前景广阔。

有数字估计,云数据中心服务器中,AI训练芯片的渗透率将提高到2022 年的13%。而推理芯片在云服务器和企业本地服务器上的渗透率到2022 年分别达到20%和7%。在急剧扩大的市场中,将不断有选手斜刺里杀出,而最终极的拷问是如何在新老格局对抗中建立独树一帜的优势。

 

作为一家初创公司,Habana Labs去年年底完成超额认购的7500万美元B轮融资。此次融资由英特尔投资领投,WRV Capital等也加入其中。自2016年创立以来,该公司已筹集到1.2亿美元。Eitan Medina表示,这一资金将支持针对推理和训练解决方案的产品发展蓝图,包括下一代7nm处理器,同时扩展销售与客户支持团队。

 

E:Muyan work新闻稿2019工作2019.6.19 Habana AIPIC微信图片_2019062017540425.jpg?imageView2/2/w/550

 

而在当今格局下,采用“CPU+加速芯片”的异构计算模式恐将会被打破。在前有 Nvidia 的 GPU+CUDA,后GPU+OpenCL以及FPGA+OpenCL来对垒的情形下,持续的革新才是Habana的出路。从此次发不得两大解决方案来看:Gaudi为客户提供了更强的处理能力,更高的性能功耗,给予客户提供了一种原来根本就无法实现的这种可以扩展的能力。而Goya凭借高计算能力、高性价比、共享多个资源这三大优势,将会在未来闯出一片天空。

 


推荐阅读

史海拾趣

AD Semiconductor公司的发展小趣事

AD Semiconductor是一家专注于模拟和数字混合信号集成电路的设计、生产和销售的公司。以下是该公司发展的五个相关故事:

  1. 公司成立与初期发展: AD Semiconductor成立于1990年,总部位于美国马萨诸塞州。公司的创始人具有丰富的集成电路设计和制造经验,致力于开发高性能、高可靠性的模拟和数字混合信号芯片。初期,公司主要专注于功率管理、数据转换和信号处理等领域。

  2. 技术创新与产品推出: AD Semiconductor在技术创新方面取得了多项突破,不断推出具有领先性能的芯片产品。公司的产品涵盖了模拟转换器、运算放大器、数据采集系统、功率管理器等多个系列,广泛应用于通信、工业控制、汽车电子等领域。

  3. 市场拓展与国际化发展: 随着产品线的不断完善和市场认可度的提升,AD Semiconductor逐步拓展了国内外市场。公司在美国、中国、欧洲等地设立了销售和技术支持中心,与全球各地的客户建立了合作关系。通过与国际合作伙伴的合作,AD Semiconductor的产品远销至全球各地,赢得了广泛的市场认可。

  4. 并购与战略合作: 为了加强自身的技术实力和市场地位,AD Semiconductor进行了一系列的并购和战略合作。其中最重要的是2015年,AD Semiconductor收购了一家专注于RF和微波集成电路设计的公司,进一步拓展了在无线通信领域的业务布局。

  5. 持续创新与未来展望: AD Semiconductor致力于持续创新,不断推出符合市场需求的新产品和解决方案。公司将继续加强技术研发投入,提升产品性能和稳定性,以满足客户在不断变化的市场需求。未来,AD Semiconductor将继续致力于成为模拟和数字混合信号领域的领先企业,并为全球客户提供更加优质的产品和服务。

Exar公司的发展小趣事

Exar公司从一个小型创业公司起步,凭借其独特的技术和创新的思维,在电子行业中崭露头角。公司初期专注于数据传输和存储技术的研发,通过不断的技术创新和产品优化,逐渐在市场上建立起良好的口碑。随着公司规模的扩大,Exar开始涉足更多的领域,包括网络通信、消费电子等,逐步发展成为一家跨行业的综合性企业。

BOT公司的发展小趣事

广西来宾电厂是中国第一个国家正式批准的BOT试点项目。该项目由法国电力国际和通用电气阿尔斯通公司作为项目公司的主要股东,总投资为6.16亿美元。这个电厂的装机规模为72万千瓦,安装了两台36万千瓦的进口燃煤机组。在长达18年的特许经营期内,该项目为广西地区提供了稳定的电力供应,同时也为项目公司带来了可观的投资回报。随着时间的推移,该项目成为了BOT模式在中国成功应用的典范,为后来的类似项目提供了宝贵的经验。

台湾致强(FORT)公司的发展小趣事

致强科技深知员工是企业持续发展的关键。因此,公司自成立以来便注重企业文化的建设,积极营造和谐、关爱的工作氛围。公司管理层倡导“尊重人性”的理念,不仅为员工提供具有竞争力的薪酬福利,还通过EAP(员工协助计划)等方式关注员工的心理健康和生活需求。EAP项目的实施不仅帮助员工缓解了工作压力,还从多方面提升了员工的归属感和幸福感,为公司的长期发展奠定了坚实的人才基础。

EFINIX公司的发展小趣事

为了加速Quantum™可编程加速器技术的商业化进程,EFINIX公司与中芯国际集成电路制造有限公司展开合作。中芯国际是世界领先的集成电路晶圆代工企业之一,其先进的制造能力为EFINIX公司提供了强有力的支持。双方合作仅用了不到六个月的时间,就成功交付了首批Quantum™可编程加速器产品样本,创造了行业内的里程碑。

EMC [ELAN Microelectronics Corp]公司的发展小趣事

义隆电子一直注重人才培养和团队建设。公司积极引进国内外各知名学府的优秀人才,并提供完善的在职培训和优厚的福利待遇。同时,公司还建立了高效的团队协作机制,鼓励员工之间的交流和合作。这种注重人才培养和团队建设的策略使得义隆电子能够保持持续的创新能力和市场竞争力。

问答坊 | AI 解惑

labview教材 (word格式)

labview教材 (word格式) …

查看全部问答>

扫频仪校正问题,请高手解答!

BT3C扫频仪校正扫频信号时,得不到矩形的波形。相应的设置为:全扫,频标50M,衰减为0,观测到的扫频信号中间有个突起的波峰,两边有一些小突起,然后最边上有一小段平线。 按理应该看到的是基本是一个矩形,可是为什么得不到呢?应该如何调整,还 ...…

查看全部问答>

了解一下AATI 原厂的手机产品应用框图!

AnalogicTech offers a complete portfolio of products for smartphones and other handheld equipment to fully optimize available energy, minimize losses, and prolong battery life.   For Li-ion polymer batteries, linear & ...…

查看全部问答>

高速串行接口的编码技术(8B10B)

高速串行接口的编码技术(8B10B)…

查看全部问答>

LED驱动电源设计考量--teleda

LED由于环保、寿命长、光电效率高等众多优点,近年来在各行业应用得以快速发展,LED的驱动电源成了关注热点,理论上,LED的使用寿命在10万小时以上,但在实际应用过程中,由于驱动电源的设计及驱动方式选择不当,使LED极易损坏.随着LED的应用日益广泛,LED ...…

查看全部问答>

windows mobile 6中MessageBox.Show()调用的参数问题!

我用的是windows mobile 6的系统,但是调用MessageBox这个函数却无法使用后面两个参数即:MessageBoxButtons,MessageBoxIcon. 程序中也无法包含System.Windows.Forms.MessageButtons..这个命名空间。 但是我的系统里其他的程序(windows mobile ...…

查看全部问答>

高分求教驱动问题(如牵涉到技术核心可以有偿付款)

大家好,我最近在帮一个朋友写一鼠标过滤驱动,需要拦截鼠标的按键,以及按下按键时候的鼠标坐标。这样才可以把鼠标的所有动作给回放出来。 现在碰到的问题是,如何在不需要应用程序作为辅助的情况下面,直接在驱动程序中就得到鼠标的坐标。(现在 ...…

查看全部问答>

关于win CE用CAB打包问题

我用CAB打包后,出的错误Log文件的内容是 “Error: Section [SourceDisksFiles] - file D:\\Program Files\\HelloCE\\HelloCE\\bin\\Debug\\HelloCE.exe cannot have a drive or pathname” 请问是什么原因?谢谢…

查看全部问答>

如何构建一个IRP命令使U盘弹出?

如何构建一个IRP命令使U盘弹出? 我想在U盘已经插入电脑上的情况下,构建一个IRP命令将U盘弹出,但不知道怎么做? 向大家请教…

查看全部问答>

pda设备号

请问各位大侠,我用vc2005做的windows mobile 下的软件,想做个简单的加密,请问该如何获得设备的一个唯一的号呢?…

查看全部问答>