GPU，警钟敲响！

2024-09-24

阅读数：

????如果您希望可以时常见面，欢迎标星????收藏哦~

因为GenAI的火热，带动了英伟达了GPU的奇迹。

根据半导体分析公司TechInsights的一项研究，Nvidia 在 2023 年的数据中心 GPU 出货量呈爆炸式增长，总计约 376 万台。研究显示，与 2022 年相比，Nvidia 2023 年的 GPU 出货量增长了 100 多万台，当时 Nvidia 的数据中心 GPU 出货量总计为 264 万台。

而根据Jon Peddie Research九月发布的季度 GPU 出货量报告，季度 GPU 出货量从 2024 年第一季度到 2024 年第二季度增长了 1.8%。这也标志着整体出货量同比增长了 16%。

但是，种种迹象标明，GPU的奇迹，将要结束了。

GPU的基本原理

从架构上看，单个 GPU由多个处理器集群 (PC：Processor Clusters) 组成，每个集群都包含多个流式多处理器 (SM)。每个 SM 包含一个与其核心紧密交互的 1 层指令缓存 (L1)。通常，SM 在从高带宽动态随机存取存储器 (DRAM) 访问数据之前会利用其 1 层缓存 (L1) 并共享 2 层缓存 (L2)。GPU 的架构旨在处理内存延迟，更注重计算，使其不太受从内存检索数据所花费时间的影响。只要GPU 有足够的计算能力保持忙碌，任何潜在的内存访问延迟都会被有效掩盖。SM 是 GPU 的主力，负责执行并行任务、管理内存访问以及执行各种计算。这些计算范围从基本的算术和逻辑运算到复杂的矩阵操作和专门的图形或科学计算。这些都针对并行执行进行了优化，以最大限度地提高 GPU 的效率和性能。

FMA (Fused Multiply-Add)是现代神经网络中最常见的运算，是全连接层和卷积层的构建块，这两者都可以看作是矢量点积的集合。此运算将乘法和加法合并为一个步骤，从而提供计算效率和数值准确性。

这里，a 和 b 相乘，并将乘积加到 d 上，得到 c。乘加运算在矩阵乘法中被大量使用。在矩阵乘法中，结果矩阵的每个元素都是多个乘加运算的总和。

考虑两个矩阵 A 和 B，其中 A 的大小为 m×n，B 的大小为 n×p。结果 C 将是一个大小为 m×p 的矩阵，其中每个元素 cij 的计算方式如下：

结果矩阵 C 的每个元素都是 A 中某一行和 B 中某一列对应元素的乘积之和。由于每个计算都是独立的，因此可以并行执行：

并发矩阵乘法具有挑战性。实现高效的矩阵乘法在很大程度上取决于所使用的特定硬件和所解决问题的规模。矩阵乘法涉及大量独立的元素运算。GPU 旨在高效处理此类并行工作负载，数千个核心同时执行这些运算。

GPU 通常被视为 SIMD（单指令多数据）并行处理单元，可以对大量数据同时执行相同的指令。由于 GPU 具有并行 SIMD 特性，矩阵乘法速度可以显著提高，这种加速对于需要实时或近实时处理的应用程序至关重要。

从3D渲染到HPC

正因为具备这些特性，GPU 最初是为了增强 3D 图形渲染而创建的。随着时间的推移，它变得更加通用和可编程。它们通过高级照明和阴影添加了更好的视觉效果和逼真场景的功能，彻底改变了游戏。

让我们从一个简单的处理器任务开始 — 在屏幕上显示图像（如下所示）。

虽然看起来很简单，但这项任务涉及几个步骤：几何变换、光栅化、片段处理、帧缓冲区操作和输出合并。这些概述了 GPU 管道渲染 3D 图形的过程。

在 GPU 管道中，图像被转换为多边形网格表示，如下所示：

单个茶壶图像被转换成由数百个三角形组成的网格结构，每个三角形以相同的方式单独处理。

在处理这个“简单”的任务时，GPU 提供了哪些 CPU 无法提供的功能？高端服务器 CPU 最多可以有 128 个内核，因此 CPU 可以同时处理茶壶中的 128 个三角形。用户看到的是部分渲染的茶壶，随着 CPU 内核完成并选择新的三角形进行渲染，茶壶会慢慢完成。

从这个范例可以看到，GPU 执行基于矢量的数学计算和矩阵乘法来渲染图像。渲染一个简单的茶壶需要大约 192 字节，而一个包含 100 个对象的复杂 GTA 场景则需要大约 10KB。

但它并没有止步于此。

因为GPU 的内置并行性和高吞吐量加速了计算，推动研究人员使用 GPU 进行蛋白质折叠模拟和物理计算等任务。这些早期成果表明，GPU 可以加速图形渲染以外的计算密集型任务，例如神经网络中使用的矩阵和向量运算。尽管神经网络可以在没有 GPU 的情况下实现，但其功能受到可用计算能力的限制。GPU 的出现为有效训练深度和复杂的神经网络提供了必要的资源，推动了深度学习技术的快速发展和广泛采用。

为了使 GPU 能够有效地处理各种任务，Nvidia 开发了不同类型的 GPU 核心，专门用于各种功能：

CUDA 核心：用于通用并行处理，包括渲染图形、科学计算和基本机器学习任务。
Tensor Cores：专为深度学习和人工智能而设计，它们可以加速矩阵乘法等张量运算，这对于神经网络的训练和推理至关重要。
RT 核心：专注于实时光线追踪，提供图形中逼真的灯光、阴影和反射。

当中，Tensor Cores 为专用硬件单元，它们旨在加速张量运算，张量运算是矩阵乘法的广义形式，尤其是在AI 中常见的混合精度计算中。与 CPU 相比，GPU 不仅速度更快，而且在矩阵乘法任务中更节能。GPU 每瓦功耗可执行更多计算。这种效率在数据中心和云环境中至关重要，因为这些环境中的能耗是一个重要问题。通过将乘法和加法结合为一个优化的运算， GPU 可以提供显著的性能和精度优势。

现在，我们已经确定了 GPU 的以下关键特性：大规模并行高吞吐量、专用硬件、高内存带宽、能源效率、实时处理和加速。通过利用这些功能（尤其是矩阵数学），GPU 可为 HPC 和 AI 任务提供无与伦比的性能和效率，使其成为从事先进技术和复杂计算挑战的研究人员、开发人员和组织的首选，能够被广泛适用于分子动力学模拟、天气和气候建模、地震数据处理、训练深度神经网络、实时物体检测和自然语言处理 (NLP)等应用。这进而促成了GPU最大玩家英伟达的繁荣。

但是过去的信号表明，GPU的神话可能要破了。

“不能只盯着GPU”

在日前，AMD首席执行官苏姿丰(Lisa Su)接受华尔街日报采访时表示，随着行业将精力集中于更加标准化的模型设计，将有机会构建更多在可编程性和灵活性方面要求不那么高的定制芯片。这种芯片将更加节能、体积更小、成本更低。

“目前，GPU是大语言模型的首选架构，因为GPU在并行处理方面非常高效，但在可编程性方面有所欠缺，”苏姿丰说。“五年多后它还会是首选架构吗？我认为情况会发生变化。”

苏姿丰预计，五年或七年时间内GPU还不会失势，但会出现GPU以外的新势力。

华尔街日报进一步指出，亚马逊(Amazon)和谷歌等大型云计算提供商已经开发了自己的定制AI芯片供内部使用，例如亚马逊的AWS Trainium和AWS Inferentia，以及谷歌的张量处理单元(TPU)。这些芯片只用于执行特定功能：例如，Trainium只能训练模型，而Inferentia只能进行推理。推理比训练的强度低，在训练过程中，模型要处理新信息并做出响应。

博通(Broadcom)首席执行官陈福阳(Hock Tan)今年在一次内部讲话中表示，该公司定制芯片部门的季度营业利润超过10亿美元。该部门主要帮助谷歌制造AI芯片。

市场情报公司国际数据公司(International Data Corp., 简称IDC)计算半导体研究副总裁Shane Rau表示，定制芯片在节能和成本方面具有很大优势，体积也小得多，因为它们可以在一定程度上进行硬连接：它们可以执行一项特定功能，运行一种特定类型的模型，甚至可以运行某一个特定模型。

但Rau表示，商业化销售这些超级定制化专用芯片的市场仍不成熟，这是AI模型创新令人应接不暇的一个表现。

研究公司Gartner的副总裁分析师Chirag Dekate表示，高度定制的芯片还存在灵活性和互操作性不足的问题。这种芯片非常难以编程，通常需要定制软件堆栈，而且很难让它们与其他类型的芯片协同工作。

但如今许多芯片产品都呈现出某种中间状态，一些GPU可以进行更多定制，一些专用芯片有一定程度的可编程性。这为芯片制造商带来机会，甚至是在生成式AI更加标准化之前。这也可能是个难题。

“这是我们一直在努力解决的一个大问题，”Etched联合创始人兼首席执行官Gavin Uberti说。这家初创公司生产的芯片只在Transformer架构上进行推理，该架构由谷歌在2017年开发，此后成为大语言模型的标准。尽管在一定程度上可以定制，但芯片还必须拥有足够灵活性，以适应依模型而不同的较小作业。

“目前，这些模型已经足够稳定，我认为押注Transformer说得通，但我认为押注Llama 3.1 405B目前还不行，”Uberti说，他指的是Meta Platforms的AI模型。“Transformer还会在，但它们会变得更大、不断进化。”他补充说，“你必须小心，不要太专门化。”

AMD首席执行官苏姿丰表示，计算方面也没有万能的解决方案。未来的AI模型将使用不同类型芯片的组合，包括当今占主导地位的GPU以及仍有待开发的更专门化的芯片，以实现各种功能。

“还会有其他架构，”她说。“只是这将取决于模型的发展。”

写在最后

正如IEEE在报道中所说，显然，Nvidia 并不缺乏竞争对手。同样明显的是，在未来几年内，没有一家竞争对手能够挑战 Nvidia，更别说击败它了。本文采访的所有人都同意，Nvidia 目前占据着无与伦比的主导地位，但这并不意味着它将永远排挤竞争对手。

“听着，市场需要选择，”分析师Moorhead 说。“如果到 2026 年，我无法想象 AMD 的市场份额会低于 10% 或 20%，英特尔也是如此。通常，市场喜欢三家公司，而我们有三个合理的竞争对手。”另一分析师Kimball 表示，与此同时，超大规模公司可能会挑战 Nvidia，因为他们将更多的 AI 服务转移到内部硬件上。

然后还有不确定因素。Cerebras、SambaNova 和 Groq 是众多初创公司中的佼佼者，它们希望通过新颖的解决方案蚕食 Nvidia 的市场份额。此外，还有数十家其他公司加入其中，包括 d-Matrix、Untether、Tenstorrent和Etched，它们都寄希望于针对生成式 AI 优化的新芯片架构。

这些初创公司中可能有许多会失败，但也许会有下一个 Nvidia 从幸存者中脱颖而出。

参考链接

https://www.hpcwire.com/2024/06/10/nvidia-shipped-3-76-million-data-center-gpus-in-2023-according-to-study/

https://www.hpcwire.com/2024/09/23/how-gpus-are-embedded-in-the-hpc-landscape/

https://www.hpcwire.com/2024/07/30/understanding-the-gpu-the-catalyst-of-the-current-ai-revolution/

https://cn.wsj.com/articles/as-ai-matures-chip-industry-will-look-beyond-gpus-amd-chief-says-61990fb0

https://spectrum.ieee.org/nvidia-ai