历史上的今天
返回首页

历史上的今天

今天是:2025年03月25日(星期二)

正在发生

2020年03月25日 | AI/ML促使FPGA和ASIC走到了一起

2020-03-25 来源:EEworld

翻译自——Semiwiki

 

随着人工智能、机器学习等应用场景快速发展演进,对芯片的算力、安全性等性能也提出了更高的诉求。据市场调研公司Semico Research数据显示,2018年FPGA市值约为10亿美元,在未来4年内,人工智能应用中FPGA的市场规模将增长3倍,达到52亿美元。要知道,这个增长是非常惊人的,毕竟过去多年,FPGA市场的年均增长率也才8%-9%。目前人工智能、机器学习等应用场景的FPGA市场约为25%,预计两年后将达到72%。如此庞大的市场空间,则需要性能更高、更加灵活的AI 算法解决方案。

 

 

See the source image

 

关于块浮点数(BFP)已经出现一段时间了,但是现在才开始被看作是执行机器学习操作的一种非常有用的技术。值得指出的是,这与bfloat不是一回事。BFP结合了定点运算的效率,并提供了全浮点运算的动态范围。在研究BFP中使用的方法时,我想起了几个用于简化数学问题的“技巧”。首先想到的是所谓的日本乘法,它使用简单的图形方法来确定产品。另一个,当然,是曾经流行但现在几乎被遗忘的计算尺。

 

在即将到来的网络研讨会上,Achronix的战略和规划高级总监Mike Fitton解释了关于在人工智能/ML工作负载的FPGA中使用BFP的相关问题,BFP依赖于标准化的不动点随机数,因此计算中使用的“块”数字都具有相同的指数值。在乘法的情况下,只需要对尾数进行定点乘法,对指数进行简单的加法。令人惊讶的是,与传统的浮点运算相比,BFP提供了更快的速度和更低的功耗。当然,整数运算更精确,使用的功耗也更低,但是它们缺乏BFP的动态范围。根据Mike BFP的说法,他为人工智能/ML工作负载提供了一个最佳位置,而网络研讨会将为他的结论提供支持数据。

 

 

AI/ML训练和推理的需求与dsp中信号处理通常需要的需求大不相同。它适用于内存访问,也适用于数学单元实现。Mike详细讨论了这一点,并展示他们构建到Speedster7t中的新机器学习处理器(MLP)单元如何对BFP提供本机支持,还支持广泛的完全可配置的整数和浮点精度。实际上,它们的MLP非常适合传统的工作负载,并且在AI/ML方面也很出色,没有任何区域损失。每个MAC块最多有32个倍增器。

 

Achronix MLP具有紧密耦合的内存,方便了AI/ML工作负载。每个MLP有一个本地72K位块RAM和一个2K位寄存器文件。MLP的数学块可以配置为级联内存和操作数,而无需使用FPGA路由资源。

 

Achronix公司推出了创新性的、全新的FPGA系列产品——Speedster 7t系列。Achronix称,Speedster 7t系列是基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。

 

Speedster7t也非常有趣,因为芯片上的高数据速率网络(NoC)可以用来移动数据之间的MLP和/或其他块或芯片上的数据接口。NoC可以在不消耗宝贵的FPGA资源的情况下移动数据,并且避免了FPGA结构内部的瓶颈。NoC有多个管道,256位宽,2GHz运行,数据速率为512G。它们可以直接将数据从外围设备(如400G以太网)移动到GDDR6内存中,而不需要使用任何FPGA资源。

 

Achronix将提出一个令人信服的理由,说明为什么在他们的架构中本地实现BFP(包括许多开创性的特性)对于AI/ML和其他更传统的FPGA应用程序(如数据聚合、IO桥接、压缩、加密、网络加速等)来说是非常有吸引力的选择。

 

为何要研发Speedster7t FPGA?——ML和AI需要全新架构的支撑

 

对于AI加速来说,相较于我们常见的CPU、GPU等通用型芯片以及可编程的FPGA来说,ASIC芯片的计算能力和计算效率都直接根据特定的算法的需要进行定制的,它可以实现体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。所以,在其所针对的特定的应用领域,ASIC芯片的能效表现要远超CPU、GPU等通用型芯片以及可编程的FPGA。

 

但是,目前AI算法仍然处在一个不断的快速更新迭代的阶段,数值精度的可选择性也越来越多。同时随着AI的应用场景快速发展演进,新的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。而AISC是针对特定的算法加速所设计的,这也使得其在灵活性上远不如可通过编程快速适应新的软件算法的FPGA。但是,FPGA在体积、能效、成本上却又不如AISC。那么是否能够有这样一款产品,能够很好的将FPGA和ASIC的优点结合在一起呢?Achronix的Speedster 7t系列或许就是这样一款产品。

 

Speedster7t FPGA系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2D NoC),以及一个高密度全新机器学习处理器(MLP)模块阵列。

 

该产品的诞生也极具有创新性和针对性,Achronix CEO 罗伯特·布莱克先生在接受芯师爷的采访时表示,在研发该芯片时,主要考虑三方面问题:

 

其一,如何拥有高效的计算力;

 

其二,如何将数据更快速、高效地传输到计算单元中;

 

其三,如何实现高效,丰富存储缓存能力。而这也是目前数据加速所需架构的三大要素。

 

Achronix CEO Robert Blake认为Speedster7t是Achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。

Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,从而提供了一个全新的‘FPGA+’芯片品类,它们可以将高性能技术的极限大大提升。

 

7nm制程工艺,集结五大优势

 

Speedster7t FPGA系列产品经历3年研发,将采用台积电7nm FinFET工艺,是专为接收来自多个高速来源的大量数据而设计。整体来看,该产品主要有五大优势:

 

1、较高的计算性能

 

AI、ML需要矢量矩阵乘法,而传统的带DSP模块的FPGA性能有限,需要消耗额外逻辑和Memory资源,而新的MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。它可提供业界最高的、基于FPGA的计算密度。

 

 

2、支持超高存储带宽

 

值得一提的是,Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。

 

 

3、高速接口

 

除了这种超高的存储带宽,Speedster7t器件还包括业界最高性能的接口端口,以支持极高带宽的数据流。Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。

 

 

4、超高效率的数据移动

 

Speedster7t高速I/O和存储器端口的产生的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。

 

它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。

 

值得注意的是,NOC的外围(如下图的大黄框)是购买的IP,但是内部的构造是Achronix自己设计的。

 

 

通过在Speedster中实现专用二维NoC,极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。

 

最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。

 

5、高安全性

 

Speedster7t FPGA系列产品在面临第三方攻击的威胁时,可用最先进的比特流安全保护功能应对,它们具有的多层防御能力可保护比特流的保密性和完整性。

 

密钥是基于防篡改物理不可克隆技术(PUF)进行加密,比特流由256位的AES-GCM加密算法进行加密和验证。为了防止来自旁侧信道的攻击,比特流被分段,每个数据段使用单独导出的密钥,且解密硬件采用差分功率分析(DPA)计数器措施。

 

此外,2048位RSA公钥认证协议被用来激活解密和认证硬件。用户可以确信的是当他们加载其安全比特流时,它是预期的配置,这是因为它已通过RSA公钥、AES-GCM私钥和CRC校验进行了身份验证。

 

 

据悉,Achronix是目前唯一一家既提供独立FPGA芯片又提供Speedcore嵌入式FPGA(eFPGA)半导体知识产权( IP)的公司。也就是说,芯片设计厂商可以通过购买授权的形式,将Achronix的Speedcore嵌入式FPGA(eFPGA)的IP整合到自己的芯片设计当中,设计出符合自身需求的芯片。


而Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。这也意味着芯片设计厂商通过与Achronix合作,也可以获得最新的Speedster7t FPGA系列的技术,并可将其转换为ASIC。Achronix CEORobert Blake表示,该技术有望帮助客户节省高达50%的功耗并降低90%的成本。


推荐阅读

史海拾趣

台湾晶豪(ESMT)公司的发展小趣事

晶豪科技一直将研发作为公司的核心竞争力。公司成功建立了各种容量及接口规格的特定型DRAM产品线,包括SDRAM、DDR I/II/III及PSRAM、低耗电的Mobile DRAM等。这些产品广泛应用于各种电子设备和系统,赢得了市场的广泛认可。此外,公司还针对系统级封装(SiP)的需求,成功开发了所需的“良品晶粒”(Known-Good-Die, KGD)产品及多芯片模块封装(MCP)的解决方案,满足了客户的多样化需求。

Auris公司的发展小趣事

在Auris公司的发展历程中,2017年夏天的一次收购事件具有重要意义。Auris以8000万美元的价格收购了Hansen Medical,这是一家专门开发工具来操控导管的公司。这次收购不仅增强了Auris在手术机器人领域的技术实力,也为其后续的产品研发和市场拓展提供了更多可能性。

Beck IPC GmbH公司的发展小趣事

随着技术的不断成熟和市场需求的扩大,Beck IPC开始寻求新的业务领域。公司凭借在嵌入式通讯领域的深厚积累,成功拓展至机器到机器(M2M)通讯和工业物联网(IIoT)解决方案领域。同时,公司积极开拓国际市场,与多个国家和地区的合作伙伴建立了紧密的合作关系。通过引进国际先进技术和理念,Beck IPC不断提升自身实力,逐渐在全球范围内树立起良好的品牌形象。

Avalon Photonics公司的发展小趣事

随着公司的发展,Avalon Photonics开始寻求国际合作,以进一步拓展市场。公司与欧洲一家知名的科研机构建立了战略合作关系,共同研发新一代的光子学设备。这一合作不仅带来了技术上的互补,也为Avalon打开了欧洲市场的大门。通过国际合作,Avalon的产品逐渐在国际市场上获得认可,公司规模也逐步扩大。

Excel-Display Corporation公司的发展小趣事

EDC深知人才是企业发展的核心动力。因此,公司一直致力于人才培养和团队建设。

公司建立了完善的人才培养机制,为员工提供各种培训和学习机会,帮助他们不断提升自己的专业能力和综合素质。同时,EDC还注重员工的福利待遇和职业发展,为员工创造了一个良好的工作环境和发展空间。

在团队建设方面,EDC注重营造积极向上的企业文化和团队合作精神。公司定期组织各种团队活动和文化交流活动,增强员工的凝聚力和归属感。这些举措不仅提高了员工的工作积极性和效率,也为公司的长远发展提供了有力保障。

Hamlin ( Littelfuse )公司的发展小趣事

随着全球环保意识的提高,EDC也积极响应号召,致力于绿色环保和可持续发展。公司投入大量资金研发节能、环保的显示器产品,并不断优化生产工艺以减少对环境的影响。

同时,EDC还积极参与各种环保公益活动,推动行业的绿色发展。这些举措不仅提升了公司的社会形象,也为公司的可持续发展奠定了坚实的基础。

问答坊 | AI 解惑

不用电池的双音门铃

随着电话机的普及率越来越高,拥有住宅电话的家庭也越来越多,但大多数住宅电话使用率很低,利用电话入户馈线提供的48V(60V)直流馈电作电子门铃的工作能源是经济实用的。现介绍一款不用电池的双音门铃电路。电路原理如图所示,不难看出,图中电路 ...…

查看全部问答>

偶的FPGA ,NIOS的资料,与大家分享

正打算下个版本的示波器使用FPGA做,所以下了一些资料,觉得这篇还不错,传上来. 入门学习很好的资料…

查看全部问答>

关于TCPMP解码图片的问题

     请问各位大侠,我在做wince下用TCPMP解码图片,但是我想将图片绘制在我提供的DC上面该怎么做?      我开发的平台是三星2530,在此之前我做过三星2440下面相同的程序,能将图片解码到我提供的DC上面 ...…

查看全部问答>

请问在ce5.0的platform builder中用cec editor如何添加一个dll文件?

请问在ce5.0的platform builder中用cec editor如何添加一个dll文件?…

查看全部问答>

牛人关于IC设计流程说明:

牛人关于IC设计流程说明:1:Datasheet定义,这个是市场、AE、RD共同完成;2:电路设计,RD完成;3:Layout, Layout Engineer完成,但RD指导并配合(算RD部门);4:IC测试电路,RD定义测试电路和方法,AE完成PCB Layout(此AE一般是跟踪本项目的 ...…

查看全部问答>

教材求助

我是DSP刚入门的菜鸟,跪求关于学习DSP的宝典级教材或是资料!万分感谢!!!!…

查看全部问答>

基于MSP430F149+nRF905无线数传模块的调试心得

调试nRF905无线模块近一个星期之久,下面细说一下基于MSP430F149+nRF905的调试步骤。   l  看到很多网友提出 First:测试nRF905模块是否正常工作        对于发射机  进入发射状态31脚1.5V&nbs ...…

查看全部问答>

飞思卡尔FTF2012中国站:开发创新积极务实的盛会

    8月14日和8月15日 , 飞思卡尔FTF2012中国站在北京国贸大饭店隆重举行。阿牛哥一直关注着FTF盛会,无论是前一段时间FTF2012美国站的报道,还有阿牛哥应邀加过FTF2010上海,FTF2011深圳的盛会。这是一个所有工程师朋友都期待的盛 ...…

查看全部问答>

LM3S9D90 DMA方式ADC高速转换疑点

小生最近在用LM3S9D90,ADC用高速转换(500K的转换速度算快吗?),因此使用DMA进行数据搬移。有两点我是一直搞不懂的: 1、  DMA仲裁机制是干嘛用的? 2、  ADC的缓冲是否一定要32位的? 以下是节选ADC和DMA初始化程序: ...…

查看全部问答>

卖全新未拆封的LM3S811开发套件,C2000LauchPad 以及430LauchPad

要毕业了,才发现有没拆封的开发板:LM3S811卖100,c2000LAUCHpad卖50,430那个卖15.需要的联系马化腾:694311468…

查看全部问答>