历史上的今天
返回首页

历史上的今天

今天是:2025年03月09日(星期日)

正在发生

2021年03月09日 | IBM四核7nm AI加速器芯片可让训练/推理效率大增

2021-03-09 来源:网络整理

最近,IBM透露了其全球首个四核的发展AI加速器采用7nm MOSFET技术。IBM开发的新芯片使用超低精度混合8位浮点算术单元在训练过程中使用,在推理(即执行AI)过程中使用4位。

 

在典型的计算系统中,增加位宽可以提高计算能力并访问更多内存。但是,AI通常容忍低精度,并且系统的位宽越大,所需的内存就越多。因此,人工智能系统的开发人员经常尝试尽可能地减少位宽,而IBM的新型四核AI加速器将推理精度降低到了4位。

 

最终的四核AI加速器实现了80%以上的利用率在训练期间(即正在使用多少处理器),以及在推理期间超过60%,明显优于通常低于30%的GPU性能。此外,IBM还集成了独特的电源管理系统,该系统通过在执行大量计算任务时降低时钟频率来降低加速器的功耗。

 

对比结果显示,IBM 新款 7nm 高能效 AI 芯片的性能和能效,不同程度地超越了 IBM 此前推出的 14nm 芯片、韩国科学院(KAIST)推出的 65nm 芯片、阿里巴巴旗下芯片公司平头哥推出的 12nm 芯片含光 800、NVIDIA 推出的 7nm 芯片 A100、联发科推出的 7nm 芯片。

 

IBM 新款 7nm 高能效 AI 芯片支持 fp8、fp16、fp32、int4、int2 混合精度。

 

在 fp32 和 fp8 精度下,IBM 新款高能效 AI 芯片的每秒浮点运算次数,分别达到 16TFLOPS 和 25.6TFLOPS ;运算密度分别为 0.82TFLOPS/mm^2 和 1.31TFLOPS/mm^2;能效比分别为 3.5TFLOPS/W 和 1.9TFLOPS。

 

在 int2 和 int4 精度下,IBM 新款高能效 AI 芯片的运算密度分别为 3.27TOPS/mm^2 和 5.22TOPS/mm^2;能效比分别为 16.5TOPS/W 和 8.9TOPS/W。

 

对比之下,IBM 此前推出的 14nm 芯片在 fp32 和 fp8 精度下的每秒浮点运算次数,分别为 2TFLOPS 和 3TFLOPS;在在 fp32 精度下的能效比为 1.4TFLOPS/W。

 

另外,在 7nm 芯片阵营中,NVIDIA A100 GPU 在 fp16 精度下的能效比为 0.78TFLOPS/W,在 int4 精度下的能效比为 3.12TOPS/W,均低于 IBM 新款高能效 AI 芯片。

 

IBM 官网文章写道,其新款 AI 芯片之所以能够兼顾能效和性能,是因为该芯片支持超低精度混合 8 位浮点格式((HFP8,hybrid FP8)。这是 IBM 于 2019 年发布的一种高度优化设计,允许 AI 芯片在低精度下完成训练任务和不同 AI 模型的推理任务,同时避免任何质量损失。

 

据悉,目前 IBM 将超低精度混合 8 位浮点格式用于训练、超低精度混合 4 位浮点格式用于推理,并开发了数据通信协议,以提升多核心 AI 芯片上不同核心间的数据交换效率。

 

据 IBM 官网文章,自 2015 年起,该公司每年将芯片的功耗性能提升 2.5 倍。这背后,IBM 致力于实现算法、架构、软件堆栈等各方面的创新。

 

在传统处理器上运行AI任务非常耗电,对内存的要求很高,并且整体效率极低。然而,事实证明,在受影响的行业所有领域中,日常应用中的AI应用都具有不可思议的优势。

 

尽管固定计算系统可以继续负担在高性能CPU和GPU上运行AI算法的费用,但嵌入式世界通常不得不依靠基于云的计算来执行AI算法。 这种远程计算的结果使人们越来越关注隐私,对互联网基础架构的额外压力以及请求和响应之间的长时间延迟。

 

诸如IBM开发的AI加速器,不仅允许嵌入式应用程序在本地运行AI,而且能够高效地运行。此外,在本地运行AI通过将潜在的敏感信息保留在设备本地来改善对隐私的关注,并减少延迟。AI加速器的使用还将导致低功率设备中的实时AI响应,这是当前无法实现的。

 


IBM
推荐阅读

史海拾趣

Enable Semiconductor Corp公司的发展小趣事

Enable Semiconductor Corp公司深知人才是企业发展的核心动力。因此,公司一直注重人才的引进和培养。公司拥有一支高素质、专业化的研发团队和管理团队,他们具备丰富的行业经验和创新精神。同时,公司还建立了完善的激励机制和培训体系,为员工提供广阔的发展空间。这种以人为本的企业文化使得公司能够不断吸引和留住优秀人才,为公司的发展提供了有力保障。

Chemtronics公司的发展小趣事

近年来,Chemtronics通过一系列收购活动进一步扩大了其业务范围。其中,最引人注目的是其子公司Wits以超过6亿元人民币的价格收购三星电机的电信模块业务。这一收购不仅增强了Chemtronics在电信领域的实力,也为其未来的发展打开了新的篇章。

这五个故事展示了Chemtronics公司在电子行业中的发展历程,从最初的清洁剂产品到完整的产品线,从遵循高标准的质量制造到成为大型企业的全资子公司,再到无铅产品线的创新和收购三星电机电信模块业务,每一个阶段都体现了公司的创新精神和对市场需求的敏锐洞察。这些故事不仅记录了Chemtronics的成长轨迹,也展示了其在电子行业中的重要地位。

Advanced Photonix公司的发展小趣事

随着产品的不断成熟和市场的日益扩大,Advanced Photonix开始寻求与全球分销商的合作。在经过一番谨慎的筛选和谈判后,公司与全球知名的半导体和电子元器件授权分销商贸泽电子签订了全球分销协议。这一合作使得Advanced Photonix的产品能够更快地进入全球市场,同时也提高了公司的知名度和影响力。通过贸泽电子的分销网络,Advanced Photonix的光电二极管、混合器件以及光电管等产品得到了广泛应用,进一步巩固了公司在电子行业的领先地位。

Astro Tool Corp公司的发展小趣事

随着企业规模的不断扩大和影响力的提升,Astro Tool Corp公司逐渐认识到企业社会责任的重要性。公司积极参与社会公益事业,为当地社区和弱势群体提供帮助和支持。同时,公司还注重环境保护和可持续发展,通过引进环保技术和设备,降低生产过程中的能耗和排放,实现绿色生产。这些举措不仅提升了公司的社会形象,也为公司的长远发展奠定了坚实基础。


请注意,这些故事是虚构的,旨在展示一个电子行业企业可能经历的一些典型发展阶段和策略,并不代表任何真实公司的具体情况。如果需要更贴近真实情况的故事,建议进一步调研和了解Astro Tool Corp公司的实际发展历程。

骏晔科技(DreamLNK)公司的发展小趣事

骏晔科技在无线通讯模块领域一直寻求创新。2019年,公司与硬之城达成战略合作,推出了高性能的FSK双向收发模块。这款模块采用了最新的FSK调制技术,极大地提高了数据传输的稳定性和效率。通过这一创新,骏晔科技在物联网设备通讯领域取得了显著的市场份额增长。

ADATA公司的发展小趣事

随着蓝牙技术的普及和市场的快速发展,骏晔科技敏锐地捕捉到了这一趋势。公司投入大量研发资源,成功推出了高性能的CC2340蓝牙模块。这款模块以其出色的性能和稳定性,赢得了市场的广泛认可。同时,骏晔科技还针对IoT远距离通信技术,推出了ChirpLAN™网关套件,进一步巩固了其在蓝牙市场的地位。

问答坊 | AI 解惑

芯片il300-b的文档

请问论坛里面的各位朋友:    需要用il300-b dip-8 vishay这个芯片。不知道谁有,能不能给发一份。着急用; 电子邮件地址是:872310481@sina.com…

查看全部问答>

谁有AT24C1024的中文资料啊?

谁有AT24C1024的中文资料啊? AT24C1024和AT24C256只是容量不一样吗?能不能互换啊? 谁有的话给我一份吧,谢了,邮箱:dotor100@163.com。…

查看全部问答>

基于单片机PIC16F74的电动按摩椅的研制

  本文介绍了一款采用PIC16F74单片机作为微处理芯片的电动按摩椅控制系统,具体包括有系统的组成和功能介绍、硬件电路的设计、软件功能实现以及抗干扰措施。   1:引言   随着我国经济的迅速发展和人们生活水平的不断提高,按摩椅等保健产 ...…

查看全部问答>

关于modbus协议

大家在做modbus通讯协议的时候,一般怎么判断接收数据的结束?…

查看全部问答>

关于ARM中的LDR与MOV的一个问题

对于LDR R1,=0x245这条伪指令,会被编译器自动转换为两条指令: 第一条是为0x245这个值在内存中分配一个地址 第二条是LDR R1,[Rn](Rn即为0x245这个值分配的地址) 我想请问,如果我使用两条指令: MOV R1,#0x240 ADD R1,R1,#0x5 同样也能够 ...…

查看全部问答>

用DDK和WriteFile读写U盘扇区的问题

最近在研究U盘过滤驱动,需要读取U盘扇区。 我用WriteFile向U盘第二个扇区写入一个标识,是我自己生成的一个序列号。 但是随后我用DDK读取第二个扇区时没有读取到这个标识。 然后我用DDK直接向U盘扇区写入一个标识,再用DDK读取时能读取到。 我 ...…

查看全部问答>

急求win 7下TC35Test测试程序

刚买了TC35开发板,系统是win 7的,配套的测试程序不能用 那位朋友有TC35Test程序啊,适合win 7的      394397573@qq.com   谢谢…

查看全部问答>

EMB-9459T的工业主板,装什么系统好?

   单位最近买了如题主板一块,配置:2G内存+4G SD卡。主频1.6Ghz。    我们先装了个XP精简版的,显然有点大材小用了,我感觉像这种配置的工控    主板是不是装个嵌入式系统比较好呢?       &nb ...…

查看全部问答>

怎样实现IIC和arm2410的通信

我现在做rtc驱动需要实现iic和cpu的通信 请问具体的步骤流程是什么?…

查看全部问答>

ZLG M0

说实话 周立功的TKSTUDIO 真的不怎么样 真的 很不爽用起来 而且载程序设置麻烦的一塌糊涂 很不人性化 经常同一个工程 过一段时间不用他 在DEBUG 他就不行了   还有各问题想请教:M0 左边一块是LPC1343 右边是LPC1114  两块是独立的吧 ...…

查看全部问答>