FPGA

英特尔为何敢说Agilex是首款面向数据中心的FPGA

2019-04-04

在英特尔收购Altera的两年后,宣布推出首款全新系列FPGA,命名为Agilex,英特尔表示,这是首款面向数据中心领域的FPGA,正如词根Agil所述,该产品旨在强调英特尔为实现超高敏捷性和灵活性进行的创新。

 

英特尔可编程解决方案事业部首席产品营销官Patrick Dorsey表示,Agilex并不是Stratix的延续,而是一个全新的平台,该产品是英特尔第一次利用了公司里面所有的资源和能力,集大成所为,在一个平台上面完成整个的解决算法。

 

“这是我们推出的第一款该类型产品,因此值得有一个新名字!”Dorsey说道。

 

纵观Altera此前的产品线,Max系列是上世纪90年代推出的,Stratix和Cyclone是2002年推出的,Arria系列是2007年推出。值得注意的是,此前Altera FPGA的系列命名都是依据产品的密度和性能来分类,而今为了瞄准单一应用的FPGA系列问世。10年没有新系列推出的英特尔/Altera,能否凭借双方在FPGA和数据中心上的积累,进一步拓展在数据中心领域的优势呢?

 

实际上不久前在英特尔2019中国媒体纷享会上,英特尔中国区总裁杨旭也指出,英特尔将从以晶体管为中心向以数据为中心全面转型。而此次Agilex的发布,也是英特尔数据化转型过程中至关重要的一步。

 

图片.png

英特尔可编程解决方案事业部首席产品营销官Patrick Dorsey

 

Agilex的性能优势

 

 

根据规划,Agilex将推出3大系列产品,以适用于不同的应用场景。

 

 

从英特尔提供的数据来看,和Stratix 10相比,在处理性能、存储能力和传输能力方面,Agilex都有着明显提升。总体来说,性能提高40%同时能耗降低40%。

 

全面借助英特尔黑科技 


Dorsey介绍道,在基础架构、处理技术、3D封装、软件等方面,Agilex系列产品都全面借助了英特尔的技术,那么全面借助都包含什么?让我们一项项来探寻。

 

最重要的就是异构 3D SiP 技术:这也是英特尔最尖端工艺的集中体现,实际上2018年英特尔技术日上,就展示了Foveros技术——3D逻辑芯片封装。

 

凭借成熟的嵌入式多芯片互连桥接 (EMIB) 技术,英特尔 Agilex FPGA 和 SoC 家族可提供面向异构芯片的高密度芯片到芯片互连,并以低成本提供高性能。由收发器、自定义 IO、自定义计算和英特尔 eASIC 设备块组成的大型设备块库提供了各种应用所需的敏捷性、灵活性和自定义功能。

 

Dorsey介绍道,eASIC是英特尔去年收购的,通过并购,英特尔现在既拥有强大的可编程能力及设计灵活性,同时也可以针对客户的要求,快速进行模组定制化或优化。“我们未来可以把FPGA和eASIC结合,我们可以生产IP硬件,可以在ASIC或FPGA中同时使用,这对客户来讲也是非常方便。”

 

 

异构 3D SiP,也是英特尔及业界所提出的Chiplet技术的最佳实践。chiplet的概念其实很简单,就是硅片级别的重用。设计一个系统级芯片,以前的方法是从不同的IP供应商购买一些IP,软核(代码)或硬核(版图),结合自研的模块,集成为一个SoC,然后在某个芯片工艺节点上完成芯片设计和生产的完整流程。未来,对于某些IP,你可能不需要自己做设计和生产了,而只需要买别人实现好的硅片,然后在一个封装里集成起来,形成一个SiP(System in Package)。所以chiplet也是一种IP,但它是以硅片的形式提供的,比如未来eASIC所做的工作。

 

Hyperflex:英特尔 Hyperflex FPGA 架构在整个 FPGA 结构中引入了额外的可旁路寄存器。每一互联布线段以及所有功能模块的输入上都有这些名为超级寄存器的寄存器。超级寄存器支持采用三种关键设计方法将内核性能提高 2 倍:

 

精细粒度超级重新定时,避免了关键路径。

零延时超级管线,避免了布线延时。

灵活的超级优化,实现了最佳性能。

 

在设计中使用这些方法时,超感知设计工具会自动使用超级寄存器,以实现最大的内核时钟频率。

 

Optane DC:英特尔宣布推出Optane DC Persistent Memory模块,单条最大容量可达512GB,这是专为数据中心使用而设计的新的内存和存储技术,用于从数据中提取更多的价值。Optane DC Persistent Memory目前正在送样,将在今年晚些时候对特定客户出货,预计将在2019年得到广泛应用。

 

与传统的DRAM不同,英特尔Optane DC Persistent Memory可提供高容量、稳定性以及持久性的完美组合。终端用户可以使用这种新的存储系统,通过移动和维护更接近处理器的大量数据,最小化从系统存储中获取数据的延迟,从而更好地优化其工作负载。

 

数据中心中的高容量持久存储器允许应用程序运行,而不会导致在PCIE总线上产生存储延迟。当开发人员设计软件时,这个新的内存种类被设计成能够实现成本效益高、容量大的内存数据库解决方案;保证更多的系统正常运行时间,同时在功率循环之后得以更快恢复;加速虚拟机存储;向多节点分布式云应用提供更高性能;并为硬件内置的持久数据提供高级加密。

 

Dorsey表示,尤其是Optane DC Persistent Memory,可以让英特尔有能力在至强(XEON)和FPGA处理器之间建立一种非常密切的内存一致性。

 

HBM:在Stratix 10 MX版本中,已经实现了对3D 堆栈式高带宽内存(HBM)的支持, Stratix 10 Mx 设备的带宽比 DDR4 SDRAM 等目前的独立内存解决方案的带宽高 10 倍。传统的 DDR4 DIMM 带宽大约为 21 Gb/秒,而 1 个 HBM2 区块高达 256 GB/秒。

 

英特尔 Stratix 10 MX 设备在一个封装中集成了兩台 HBM2 设备,最大内存带宽高达 512 GBps。

 

DDR5:众所周知,英特尔在不遗余力的开发对于DDR5的支持,而业界也都会看英特尔对于新型内存接口的反映。

 

PCIe 4/5:相比Stratix10,Agilex支持PCIe 4以及即将到来的PCIe 5,这得益于英特尔在总线方面的历史积累。

 

计算快速链接(Compute Express Link):英特尔 Agilex FPGA 和 SoC 家族通过Compute Express Link 提供了业界首个面向英特尔至强处理器的缓存和内存一致性互连技术。这项革命性的 FPGA 互连技术将为具有大量数据处理需求的内存密集型应用提供低延迟和性能优势。这是由英特尔、微软、阿里巴巴、思科、戴尔、Facebook、谷歌、惠普企业以及华为组成的科技联盟,正创建名为Compute Express Link(简称CXL)的新计算互联标准,以便在数据中心CPU和加速器芯片之间实现超高速互连。这个科技联盟的目标是提供突破性的数据中心性能,帮助计算机跟上物联网时代数据爆炸性增长的步伐。英特尔数据中心执行副总裁兼总经理纳文·谢诺伊(Navin Shenoy)表示,CXL将消除CPU和数据中心专用加速器芯片之间的瓶颈,加速数据工作负载,如人工智能和机器学习、丰富的媒体服务、高性能计算和云计算应用。这个新成立的组织已经批准了CXL Specification 1.0,它将改进CPU与其他设备(如二级处理器或加速器)之间的通信,并为数据密集型应用程序提供更好的互连和更好的内存一致性。Dorsey说道:“在系统里面很大的一个挑战或者是瓶颈所在,你要是不停地复制这些数据,在处理器和加速器之间不停地要复制,这就造成了一个瓶颈。但是呢,在我们的解决方案当中你不需要再这样复制了,在处理器和FPGA之间,数据不需要再进行这样反复复制了。这也意味着它的TCO会更低,而它的性能会更高。”

 

更强大的DSP处理器:英特尔Agilex FPGA 和 SoC 家族提供了一个可配置的 DSP 引擎,可提供对单精度 FP32、半精度 FP16、BFLOTA16 和 INT8 计算的增强型支持。英特尔Agilex FPGA 和 SoC 家族还支持从 INT7 到 INT2 的低精度配置,以实现最大的灵活性。英特尔 Agilex FPGA 可编程性与 DSP 模块创新相结合,非常适合用于不断变化的人工智能工作负载。值得注意的是BFLOAT16标准,谷歌的TPU里面已经采用了这个标准,目前得到了越来越广泛的应用。与此同时,Agilex还可与英特尔其他AI或其他处理器结合,共同解决AI计算棘手难题。

 

更强大的收发器:Agilex收发器最高支持112Gbps,同时家族拥有包括 28.3Gbps、58Gbps 和 112Gbps 收发器块。再加上对PCIe5的支持,从而为400G、边缘分析、数据中心负载等应用提供高带宽。

 

软硬件开发工具:英特尔除了是硬件公司之外,在软件领域,英特尔同样是有着强劲的实力。从OpenVINO开始,英特尔力求为开发者提供完整的软件解决平台。此次英特尔宣布推出面向软件开发者的One API 软件,为各种计算引擎提供了一个统一、单源、面向软件的异构编程环境。该软件包含一个全面统一的开发人员工具组合,用于将软件映射到可加速代码的硬件。面向 FPGA 的 One API 的主要目标受众是希望使用 FPGA 进行加速的软件开发人员。


在硬件开发软件上,英特尔Quartus Prime进一步升级,19.1相比18.1版本,编译时间缩短30%,内存利用率提高15%。

 

Agilex完成从边缘到云的加速

 

Dorsey表示,随着数据量的不断增长,客户越来越需要高性能的数据处理方案,同时也需要更高灵活性可定制的产品及方案以解决人工智能、深入学习、编码视频等快速发展的领域所遇到的难题。

 

“我们的客户很多,他们所面临的问题各种各样,很难统一地总结。客户的问题数以万计,同时世界上还有那么多的国家和地区,有众多差异化的市场。”

 

Dorsey以英特尔的三类客户,解释了嵌入式边缘、通讯业以及云计算所面临的不同问题。

 

对嵌入式或边缘计算来讲,客户需要提取实时数据,并进行边缘推理。而对于通信来说,包括5G、光纤网络和需要数据分析处理之后进行负载平衡,又或者通过网络硬件虚拟化,从而提高数据处理效率。而对于云计算客户来说,需要在云端进行数据处理、分析及存储加速。这一切,都离不开灵活的数据的处理与分析。

 

Dorsey举例道:“每家云供应商都有自己的想法,可是实际上,在落地的时候,可能都会有一些困难。所以通过FPGA,可以让他们能够在网络方面实现快速创新。而对于数据中心这一块,无外乎是功率和TCO整体拥有成本。数据中心往往是希望能够在同样的配置之下,尽可能地多做一些事情,但是他们的工作负载不同,只有通过与加速器共享内存,网络效率才能更高。”

 

另外,Dorsey强调,5G无线市场的各个阶段,Agilex都可以体现出强大的灵活性和敏捷性等特点。“现在无线市场越来越多的是跟数据有关,比如C-RAN等技术商业化的落地。如今对于5G市场,客户希望可以即可开始导入产品,并根据应用进行优化,以便可以跟上最新标准。”FPGA此前就在通信市场有着充分的市场应用空间,如今通过更多eASIC的Chiplet模式,客户可以获得更多灵活性和更高的性能/功耗比。

 

“Agilex FPGA可以在多个市场、多个领域应用,它的处理器可以是至强,也可以是其他处理器,它还可以单独地工作。比如说在智能城市、智能制造、智能工厂中,Agilex就是一个非常适合的解决方案平台。”

 

“FPGA并不只是小小的一块,而是利用英特尔的全部能力打造出来的解决方案。现在英特尔有超过10万员工,我们希望借助强有力的解决方案,最终端对端地帮助客户解决问题。”Dorcey强调道。


相关文章