历史上的今天
返回首页

历史上的今天

今天是:2025年06月08日(星期日)

正在发生

2018年06月08日 | 对话英特尔AI硬件负责人:什么是真正的AI芯片

2018-06-08 来源:网易智能

出品 | 网易智能(公众号smartman163

期号 | 79期(2018年访于旧金山)

作者 | 定西


如今,AI芯片的战火愈演愈烈,英特尔也是时候拿出自己的深水炸弹了,而这次天将降大任的就是最新版NNP芯片。


它的全名叫Nervana NNP-L1000Spring Crest),支持bfloat16这一业界广泛用于神经网络的数字格式,随着时间的推移,英特尔将在AI产品线上扩展对bfloat16的支持,包括英特尔至强处理器和英特尔FPGA,英特尔Nervana NNP的目标是可实现高计算利用率并支持多芯片互连的真正模型并行。


主导这一产品的是英特尔AI产品事业部(AIPG),AIPG是英特尔人工智能的拳头部门,负责策划和执行关于AI方面的研发和产品路线,其中,Carey KlossAI硬件的负责人,自1996年以来,他一直在芯片行业从事工作。


这位芯片专家来自Nervana,这家公司2016年并入英特尔麾下,他们几乎撑起来了AIPG的半边天,CareyNervana公司的CEO Naveen Rao一同加入英特尔,目前,Naveen Rao担纲英特尔AI战略总策划师,任英特尔副总裁。


这次,关于更多新款AI云端芯片的问题,网易智能对Carey进行了专访。


| 性能提升34倍 不畏惧竞争对手


问:Lake CrestSpring Crest的主要区别是什么?


CareyLake Crest是先前的设计,是更稳定的处理器。我们在创业时就开始使用它。进入更现代化的制程节点,我们集成了更多的Die(硅芯片),可以获得更快的处理速度。


我们认为Lake Crest作为软件开发工具(software development vehicle)更好,部分原因是因为我们去支持了bfloat。客户对于能在直接获得成果更兴奋,而不是还需要在中间做一些工作。


关于Spring Crest的制程节点,我们尚未公布关于哪些产品使用制程节点的任何信息。因为需要一定的时间去制造硅片,也需要时间把硅片变成新的神经网络处理器,这是延迟到2019年上市的原因。


性能方面,Lake Crest作为我们第一代处理器,现在被用作软件开发工具的时候,我们实现了在GEMM和卷积神经上都实现了非常好的计算利用率。并且这不仅仅是96%吞吐量的利用率,而是在没有充分定制化的情况下,我们也取得了大多数情况下实现GEMM高于80%的计算利用率,这也是很了不起的。


当我们开发Spring Crest这个下一代芯片时,我们保持高计算利用率,新的产品在性能上有34倍的性能提升。


问:此前Lake Crest的计算利用率达到了96%, 但Spring Crest的计算利用率稍微低了,这是为什么?


Carey实际上这个是我的想法,把利用率适当下降,有些情况上确实可以实现98%。在没有资源冲突,每个硅芯片都能完全运行的情况下,可以99%甚至100%计算利用率。


每个架构都会有些情况能够充分利用,无论它们现实与否。我想在Spring Crest幻灯片上展示的是,大多数情况下都能实现的利用率。我们当然可以展示在基准测试中获得100%计算利用率的例子,但是我想表示的是很多用例都会有很高的利用率。


问:芯片晚些时候上市会给英特尔在市场竞争中造成不利影响吗?


Carey我认为我们逐步转向bfloat是一个重要的考虑因素, 因为如果这就是市场需要的,那么我认为我们对它的反应很快, 我不知道我们的竞争对手的路线图是什么,但我认为我们的反应速度相对较快,所以我认为我们不会在神经网络处理上处于劣势。


bfloat最近变得更受欢迎,我所知道的是,在过去四个月中,有多个客户来到我们这里并特别要求bfloat


问:哪些类型的顾客或者行业对Spring Crest感兴趣?


CareySpring Crest可以说是最高等级的Nervana神经元处理器架构。


因此,它有同样的客户,例如超大规模中心,超大规模CSP,已经拥有相当强大的数据科学工作的大型企业客户,例如政府和其他企业。


我想从另一种角度来回答这个问题,哪些客户对此不感兴趣。数据科学或人工智能还是比较新的,这是一个非常热门,非常激动人心的领域,而且正在迅速改变。传统的企业客户可能拥有数据,但他们可能无法在其数据中心部署高端设备。我们作为英特尔提供的服务,以及我们的路线图和我们的总体策略是提供整个产品组合。你可以基于nGraphXeon开始工作。你的数据中心已经部署了英特尔至强处理器,那你没有理由再去购买神经网络处理器或者其他类似产品。你有了至强并且围绕至强做一些工作,你可以得到你的数据状态。


但如果你发现神经网络可以帮助你,并且尝试找到如何能够让它赚钱,这时候你可以说你更加严肃认真对待它,当然英特尔可以提供神经网络处理器产品,能够让你更严谨地去进行训练。现在你可以购买很多NNP产品,并可以运用相同的软件栈,你可以获得相同的优化和优化路径,你可以为不同的硬件进行优化。甚至你可以用不同的Crest或者Xeon,这取决你想要干什么。或者,你已经开始了训练阶段,你的数据科学家开始尝试去训练不同的模型,现在你的需求是大规模部署推理阶段。


重中之重是,不是一种解决方案满足所有需求,如果你需求的是低延且小模型,至强就能帮助到你,它可以把数据从云到端手机起来。如果是一些大型模型,而不是只处理一种类型的数据,你需要一些更具体能够进行推理的部署。这就是和我们今天早上宣布有关,这里潜在蕴含着,我们正计划给数据中心提供推理加速,当然更多细节不能透露。


AI英雄 | 英特尔AI硬件负责人Carey Kloss:什么是真正的AI芯片


| 整合资源快速迭代 初始团队只有45


问:在开发新芯片的时候你们遇到了什么样的困难?


Carey我们先来谈一下Lake Crest,我们创业初期就开始研发Lake Crest,我们整个团队大概45人,当时正在构建一个最大的Die(硅芯片),我们开发了Neon,我们还构建了云栈,这些都是40-45人团队所完成的。


这就是挑战,公司成立在2014年,直到去年芯片才真正问世,3年的时间不短,现在一切都是新的,我们现在属于英特尔,可以访问英特尔的资源,流程也变得简单,同时也有足够的员工同时进行处理器多代开发,就像一个真正CPU公司。


我认为我已经具备了明年取得成功所有要素,小团队成长会有阵痛,我们花了很长时间才把第一批产品拿出来,但我们现在处于合理的节奏中,现在我们每年都会看到改进,当前我们的人员配置合理,资源配置合适,能够更好的展开工作。


问:但整合所有需要的资源并不是一件容易的事吧?


Carey当然不是一件容易的事情,但英特尔在将产品推出市场方面拥有丰富的经验,我曾经在大大小小不同的公司工作过,英特尔这点让我印象非常深刻,英特尔有迄今为止我见过的最佳的后硅培养(post-silicon bring-up)和架构分析。出品芯片,我们有数百个系统同时运行。


而且,同事们夜以继日协同工作,不仅仅来自Nervana的员工,6个月前刚加入的员工也是如此。当然让数以百计的员工朝着同一个愿景工作是很困难的,但英特尔是我所经历过的做的更好的一家公司。


问:什么是Lake Crest编程模型?它与GPU相似吗?


Carey不是的,从高层面看,任何加速器都是一样的,你有一个为特定的图层编写的内核,将内核放在设备里,然后将数据存储在设备上,这就可以了。


所以从这个角度来看,它们都非常相似,在较低层面上,Lake CrestCrest家族一般都没有共享的二级缓存,它具有软件控制的内存,因此软件工程师或者内核开发工程师可以控制内存中的内容,控制其在内存中保留的时间,控制从处理元件到处理元件的内容,从芯片到芯片的内容,它是静态的,你无需处理缓存冲突等。


让这成为可能的是,在深度学习中,你能提前知道所有的操作,内核开发工程师能更轻松地保留数据,移动数据和优化性能,我们可以这样做,因为我们不需要做随机指示,我可以提前知道指示。


而这一切对数据科学家来说都是隐藏的,数据科学家从来不想围绕GPU编码,他们只是想要高速度,而Nervana GPU内核就是这样提供的,我们拥有世界上最快的GPU内核,我们拥有与某些客户合作的FT16内核,这也是Nervana比硬件更为出名的地方,硬件实际上并没有被讨论,这些高速内核使数据科学家能够从当时的硬件中获取最多的内容,而无需被低水平细节所打扰,这是一种很好的模式,因为可以在不同的产品中改变计算机结构,并且由于除了位于英特尔的专门核心团队外,没有人直接在硬件上编写代码,我们可以管理这一更改并且始终尽可能优化硬件,可以添加说明,可以添加函数,可以改变事物的工作方式,可以在不影响数据科学的情况下更改bfloat


| 积极应对行业变化 新芯片明年上市


问:数据科学家本身不关注硬件?


Carey没错,我不认为数据科学家真正关心的是底层的问题,他们只是希望它速度很快,他们不会在乎法拉利是电动的还是混合动力的,是V12还是四缸发动机 他们只想在三秒钟内看到它从060


问:nGraphCUDA相比的优势是什么?


CareynGraphCUDA还是不一样的,CUDA你可以理解为 nGraph的底面,我们称之为变压器,nGraph通过一个固定的API接收来自TensorFlowCaffeMXNet的输入,然后通过图形编译器进行性能优化,排除一些不需要的东西,然后将其发送给CPUMKL-DNN,所以CPU仍然使用MKL-DNN,即使在nGraph中也是如此,相似的,我们也需要为Crest的变压器,我们也需要一个英特尔其他硬件的变压器。


问:目前是否有关于Spring Crest的速度有多快的数据或基准?


Carey我们暂时没有公布具体数字,与Lake Crest相比,在性能上有3-4倍的提升,基于我们用客户提供的Lake Crest反馈,我们在整个设计过程中提高了性能。


问:有人认为我们正处于部署算法的早期,你对算法的潜在变化有什么看法


Carey我认为算法和硬件之间有一点共生关系,反之亦然。


如果你往回看,过去的几年,在GPU上的GEMM核心会很快,因此当时所有的深度学习都指出如何利用GEMM核心来进行工作,因为这也是GPU仅有可以很快进行处理的地方,如今,GPU上有很多新的核心,数据科学家指出许多新的写入核心,我们的硬件处于两者之间,它并没有完全固定的函数,我们的硬件处理各种各样的激励函数,通过bfloat处理各种浮点运算,并且我们控制设备执行超出当前浮点范围的事情,你的GEMM,你的卷积神经,将会得到超级优化,我们不会像其他竞争对手一样拥有固定的函数,我们不会像GPU一样为了通用用途,我认为我们处于一个良好的中间点,在未来的几年也不会过时,随着时间的推移,我们将增加更多的通用硬件,以处理更多的混合工作负载。


问:你们是如何制定AI路线图的?背后有哪些考虑?


Carey我们的路线图与任何人的路线图都相似:每年更大,更强,更快。


我们每年都会进行增量架构更改以提升性能,行业中出现的任何新事物如果与我们的硬件产品组合相关,我们会采取行动。(完)


注:《AI英雄》人物专访隶属网易智能工作室,与行业人士一起洞察技术趋势,捕捉行业机会。转载请注明出处,违者必究!


推荐阅读

史海拾趣

ERNI公司的发展小趣事

1947年,瑞士工程师Ernst Rudolf Erni和他的妻子Elsa在瑞士那提空(Nänikon)共同创立了“ERNI & CO.”公司。他们的首个订单是为苏黎世克洛腾机场开发地雷探测器和机场导航灯。这个起点虽小,但为ERNI日后在电子行业的辉煌奠定了基础。随着订单的增多,公司逐渐扩大了生产规模,并开始涉足继电器、电气设备等领域。

Aimtec公司的发展小趣事

作为一家注重品质的企业,Aimtec公司深知质量管理体系的重要性。因此,公司投入大量资源,建立了完善的质量管理体系,并通过了ISO 9001:2015等国际质量管理体系认证。这些认证不仅证明了Aimtec公司在质量管理方面的实力,也为公司的业务拓展提供了有力的保障。通过持续的质量改进和创新,Aimtec的产品在行业中赢得了良好的口碑。

Deltron公司的发展小趣事

在竞争激烈的电子市场中,品质是Deltron公司的生命线。公司始终坚持以客户为中心,注重产品质量和服务的提升。通过严格的质量控制体系和完善的售后服务,Deltron赢得了客户的信任和好评。同时,公司还积极参与行业标准的制定和修订工作,推动行业向更高水平发展。

富士康(FOXCONN)公司的发展小趣事

1996年,FMS在台湾正式成立,标志着美丽微半导体股份有限公司的诞生。公司由杨照霞女士创办,初期便专注于二极管及场效应管(MOS)等分立式器件的研发与制造。这一决策基于对市场需求的敏锐洞察,以及对半导体技术未来发展的坚定信心。在杨照霞女士的带领下,FMS迅速建立起一支专业的研发团队,并着手构建半导体上下游资源整合体系,为公司的长远发展奠定了坚实基础。

CIF公司的发展小趣事

D公司始终坚持品质至上的经营理念,以提供高品质的电子产品为己任。在CIF交易模式下,D公司严格控制产品质量,从原材料采购到生产流程中的每一个环节都进行严格把关。凭借出色的产品质量和良好的售后服务,D公司赢得了客户的信任和好评。

Dialog Semiconductor(戴乐格半导体)公司的发展小趣事

Dialog Semiconductor一直专注于能源管理领域,致力于提供高效的电源管理解决方案。公司推出了多种高效的电源管理芯片,这些芯片能够显著延长电池寿命并提高设备效率。特别是在移动设备领域,Dialog Semiconductor的电源管理芯片被广泛应用于智能手机、平板电脑等设备中,为用户提供了更长的使用时间和更好的使用体验。

问答坊 | AI 解惑

寻求仪表传感器行业有经验工程师进行长期技术合作

各位大虾好,我们寻求仪表传感器行业有经验工程师进行长期技术合作,有意向请发邮件至LUKEBS@126.COM WWW.JUCSAN.CN…

查看全部问答>

程控开关电源

需要的话就下 把   应该可以用得着的阿…

查看全部问答>

智能电灯小制作

今天在电脑中发现自己曾经用过的资料…

查看全部问答>

Wince5.0上面运行JAVA程序,使用何种JAVA虚拟机?

Wince上面运行JAVA程序,是否wince4.2,wince5.0,wince6.0上需要安装的JAVA虚拟机也不一样? 现在迫切想知道,在wince5.0上需要何种虚拟机,以及如何使用?…

查看全部问答>

关于EVC下 语音识别 的问题 

本人想用EVC 写一个关于语音识别的应用程序, 但是EVC好象不怎么支持speechsdk5.1 语音包, 请问各位大虾我怎么去写这个程序.请赐教!!  …

查看全部问答>

Wince6.0系统PPPoE拨号获取子网掩码错误是怎么回事?

PC机做服务器,wince6.0系统仪表进行PPPoE拨号,获取结果信息打印出来,再用一台PC机PPPoE拨号,获取结果信息也打印出来,比较两者结果,发现获取的IP地址和网关,DNS都是一样的且正确的,子网掩码不一致,Wince6.0系统的是255.255.255.0,PC机获取 ...…

查看全部问答>

秀秀我的开发板

今天回家突然想到SOSO布置给我的任务,但是数码相机没在家,只好用手机拍了一下我在家里的开发板,有空了再把公司的一起拍了传上来这是周立功送的LPC1114,和论坛搞活动的一样,还没来得及玩这是以前买的LPC2148开发板,撒子牌子的都忘了,旁边的是 ...…

查看全部问答>

雨天的浪漫 会变色的LED发光雨伞

 想象一下,在小雨淅淅沥沥的夜晚你和她共撑一把发光的小雨伞,是不是又增加了一种浪漫的氛围呢?我承认这就是能发光的雨伞!不是激光剑!咱总不能俩人拿着雨伞对砍吧- -!事实上你也可以理解成一把带有遮雨性质的激光剑- -!在淅淅沥沥的雨下个不停 ...…

查看全部问答>

谁用过ADS1148(1147或者1248)?参考电压死活出不来。。。

最近发现自己的板子上面的AD位数太低了,所以想搞一个好的,结果买了个ADS1148,这玩意用SPI控制,网上也有例程。但是把程序烧下去之后就出问题了,参考电压死活不出来。VREFOUT和VREFCOM脚没有输出的说,之前已经可以正常读写寄存器了,也再MUX1里 ...…

查看全部问答>

差压变送器PTX120-druck产品

         GE-druck德鲁克高精度差压变送器PTX120为小型湿-湿差压变送器,两个压力端口可以在绝大多数液体介质下使用。正(高压)端是由316不锈钢焊接密封,负(低压)端由不锈钢、硅、玻璃、环氧 ...…

查看全部问答>