电子头条

这个将用1.5nm工艺生产的芯片,突破了性能瓶颈?

2022-09-29
    阅读数:

来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。

在经历了近六十年的变得更小、更快、更冷和更便宜之后,现在每一代的晶体管都变得越来越昂贵。于是有人可能会说,在可预见的未来,这将比任何其他因素更能推动系统架构的选择。


要么晶圆厂设备的标线尺寸会限制我们,要么组件之间的互联互通,无论它们是在 2D、2.5D 还是 3D 配置的单个插槽上,都会限制我们。我们发现Chiplet架构可能是不可避免的,而且很有趣,我们承认chiplet方法有可能提高单个组件的良率,从而降低半导体成本,但chiplet的使用也会增加封装制造成本,而且存在价格 ,并且可能是计算效率和热量的巨大代价,因为没有非常接近其缓存和主存储器的单片计算元素。


也许我们应该在 450 毫米晶圆技术上投入更多?但这可能行不通,因为这样做的话,用于切割晶圆的硅锭将比现在的主流产品重 3 倍,冷却时间也需要 2 到 4 倍,而且在制造过程中自动处理晶圆的现代晶圆厂中的所有机器都必须与蚀刻设备一起更换。


有一段时间,计算和内存的 3D 堆叠似乎是解决这个难题的唯一途径,但即使这样也面临着巨大的工程和经济挑战。


考虑到这一点,我们阅读了日本理研(RIKEN)超级计算实验室主任、东京工业大学长期教授Satoshi Matsuoka在工业与应用数学学会在线期刊上发表的一篇新论文,以及RIKEN 超级计算性能研究团队的负责人 Jens Domke 在去年交付的“Fugaku”系统之后,从理论上谈到了超级计算设计。


是的,晶体管密度仍在增加并将继续增加,但这绝不是英特尔联合创始人摩尔在 1965 年和 1975 年的开创性论文中提出的重点。重点是不断降低的晶体管将推动计算行业向前发展,以指数速度,这肯定发生了。但现在,一切都变得更难了,而且更热、更贵。直到我们能够深入到物理宇宙的 BIOS 的微代码并改变一些基本定律,这就像蚀刻在硅晶片上的 CMOS 半导体技术一样。


回顾一下:由 IBM System/360 大型机的传奇架构师 Gene Amdahl 创造的Amdahl’s Law有许多措辞,我们常见的是——系统的速度取决于其最慢的组件。这个想法是由 Amdahl 在 1967 年美国信息处理学会联合会春季会议上提出的:“通过优化系统的单个部分获得的整体性能改进受到实际使用改进部分的时间分数的限制。。” 应用程序越并行,加速就越大,这就是 HPC 领域中通常所说的强扩展性。


像许多伟大的想法一样,它似乎很明显,但Amdahl’s Law对各种高性能计算都有巨大的影响,而不仅仅是模拟和建模。


Gustafson’s Law也是如此,该定律在 1988 年由 HPC 传奇人物和应用数学家John Gustafson 和Edwin Barsis在计算机协会的一篇名为《 Reevaluating Amdahl’s Law》的文章中提出,当时他是桑迪亚国家实验室的计算机科学和数学主任。论文出来的时候,Gustafson 在桑迪亚工作。


如果需要简明对比,Gustafson’s Law 类似于狭义相对论,Amdahl’s Law更像广义相对论。Amdahl’s Law是关于一个固定问题如何随着硬件的变化而扩展,但桑迪亚团队专注于一个不断变化的问题如何随着硬件的变化而扩展,并且随着时间的推移可以提供更高的模拟分辨率——并试图制定一种方法来衡量所有硬件的效率。它的假设之一是工作负载的串行部分不会像并行部分那样增长。


《纽约时报》有一篇关于桑迪亚并行计算算法突破的引人入胜的文章,这是互联网上为数不多的对 Barsis 的引用之一。并且,引用 Barsis的话,它很好地描述了Gustafson’s Law的弱缩放原则:“我们不会不断地将平行部分分解得越来越小。我们不断地让整个问题变得越来越大。”


描述过去三年半的 HPC 产业并捕捉Gustafson’s Law的精神是多么富有诗意的方式。这就是通过巧妙的硬件和软件工程尽可能地欺骗Amdahl’s Law。


这让我们一路回到 RIKEN 实验室和post-Fugaku世界、SIAM 上的论文,以及Matsuoka在最近由布鲁克海文国家实验室主办的 Modsim 研讨会上的演讲。


这是松冈从普渡大学彼得·伯梅尔的系列讲座中提取的图表,显示了这两个定律在 2D 中的相互作用:



这是 Matsuoka 和 Domke 为 SIAM 文章制作的精美 3D 图表:



Matsuoka 和 Domke 在 SIAM 论文中写道:“超级计算社区通常将 Amdahl’s Law视为强缩放定律,根据该定律,使用更多计算节点可以加速给定的可并行化部分工作负载并缩短求解时间。”“但这条定律也适用于加速器,潜在的加速受到算法加速部分和不可加速部分的比率的限制。此外,称为Gustafson’s Law的第二个基本观察也通过基于可并行化或可加速部分在多个节点上的弱缩放程度来限制问题的可实现加速来管理现代 HPC。通过增加整体工作负载并保持每个节点的恒定工作量来实现这一点。


作者说,上面第二张图表的要点是,一个完美的加速器可以产生“显著的加速”,在上面的图表中大约是 10,000 倍,但是加速器内的任何Amdahl’s Law和任何Gustafson’s Law都会导致效率低下。分布式加速器集合的效率低下和计算节点之间的数据传输都阻碍了可扩展性。您可以在设计下一代超级计算机之前对其进行量化。这就是Matsuoka在 Modsim 2022 上冗长而详细的演讲的全部内容。


这让我们回顾 FugakuNext strawman关于预计在 2028 年至 2030 年之间为 RIKEN 打造下一代超级计算机的假设提案,我们在 4 月份的一篇论文中对此进行了报道,当时 RIKEN 和其他大学研究人员在全球,共同对 AMD Milan-X Epyc 7773X 大型缓存处理器的 HPC 性能进行基准测试。事实证明,该领域现在有两个 FukaguNext  strawman,一个是具有大量堆叠 L2 缓存的加速 CPU(如 A64FX),另一个是 Matsuoka 在他的 Modsim 2022 演示中展示的混合 CPU/加速器具有大量 3D 堆叠内存和缓存以提供强大扩展能力的设备。


最初的 AMD Milan-X 测试使用 MiniFE 有限元分析应用程序,证明使用适合 L3 缓存的数据集,MiniFE 例程的运行速度提高了 3 倍。大缓存减少了Amdahl’s Law的一大瓶颈——主内存。换句话说,最后一级缓存(L2 缓存或 L3 缓存,取决于架构)是新的主内存。突然间,我们回想起了 1990 年代后期的服务器。. . .


无论如何,RIKEN 然后推断出具有大量堆叠 L2 缓存的未来 A64FX 处理器的外观以及它的性能。该 A64FX 大缓存 (LARC) 处理器在 A64FXNext 处理器上堆叠了 8 个 L2 缓存进行了模拟,具有 384 MB 的 L2 缓存,带宽为 1.5 GB/秒,并且被建模在一个 FugakuNext socket上,其性能上较当前的当前 Fugaku socket平均提高了 10 倍。



漂亮,不是吗?而且它不是像 A64FX 这样具有强大矢量引擎的 CPU。并不是说 RIKEN 已经做出了这样或那样的决定。这两个strawmen 系统现在只是一个实验。但他们肯定会为提案和设计决策提供信息。


这种具有前瞻性的混合 FugakuNext 计算引擎具有通用 CPU——毫无疑问基于 Arm 架构——并具有粗粒度可重构阵列 (CGRA) 加速器。根据 Matsuoka 的说法,这些可能是具有时钟级同步的 GPU、类似 Xilinx 或 Intel 的 FPGA 结构,或者称为可配置空间架构或 CSA 的 Intel 数据流引擎,我们早在2018 年的专利申请中就听到了这些信息。。


您还会注意到,在 CPU 和加速器的顶部都堆叠了 2D SRAM 缓存,并且 CPU 的 SRAM 顶部堆叠了 DRAM。该中介层还具有 12 个 1 Tb/sec 硅光子网络端口,可直接从封装中取出。RIKEN 估计这种芯片将采用 1.5 纳米工艺进行蚀刻。


这种潜在的 FugakuNext socket在 FP16 精度下每个节点的性能将超过 1 petaflops,这可能意味着在 FP32 单精度下超过 500 teraflops,在 FP64 双精度下超过 250 teraflops,并且 SRAM 带宽的内存带宽超过 20 TB/秒. 这个潜在的 FugakuNext 系统将有大约 80,000 个节点,总内存带宽介于 2 EB/秒和 3 EB/秒之间,混合精度性能大约 100 exaflops,消耗大约 30 兆瓦的电量。


这听起来很合理的愿望。问题是:它可以制造吗?人们都能负担得起吗?

★ 点击文末【阅读原文】,可查看本文原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3175内容,欢迎关注。

推荐阅读

半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!


展开↓