一个拥有131072 个GPU的超算集群

2024-09-13

阅读数：

????如果您希望可以时常见面，欢迎标星????收藏哦~

来源：内容编译自tomshardware ，谢谢。

甲骨文周三推出了新型集群，可通过 Oracle 云基础设施 (OCI) 进行 AI 训练。最强大的集群将基于 Nvidia 即将推出的 Blackwell GPU，并将提供高达 2.4 ZettaFLOPS 的 AI 性能，使其比 Elon Musk 最近宣布的 AI 集群更强大。

甲骨文的新型超级计算机集群可以配置 Nvidia 的 Hopper 或 Blackwell GPU 用于 AI 和 HPC，以及不同的网络设备，包括带有 ConnectX-7 NIC 和 ConnectX-8 SuperNIC 的超低延迟 RoCEv2 或基于 Nvidia 的 Quantum-2 InfiniBand 的网络，以及根据性能需求选择的 HPC 存储：

配备 H100 GPU的 OCI 超级集群最多可支持 16,384 个 GPU，提供 65 FP8/INT8 exaFLOPS 的峰值性能和 13 Pb/s（每秒 13 拍比特）的组合网络吞吐量。

由H200 GPU驱动的 OCI 超级集群将于今年晚些时候推出，将扩展到 65,536 个 GPU，提供高达 260 FP8/INT8 exaFLOPS 和 52 Pb/s 的网络吞吐量。

最后，基于 Blackwell B200 GPU 的OCI 超级集群将扩展到 131,072 个 GPU，并提供高达 2.4 FP8/INT8 zettaFLOPS 的峰值性能。

OCI 即将推出的超级计算集群远远超出了当前领先系统的能力。据 Oracle 称，基于顶级 B200 的 OCI 超级集群的 GPU 数量是 Frontier 超级计算机（使用 37,888 个 AMD Instinct MI250X GPU）的三倍多，是其他超大规模计算系统的六倍。

Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示：“我们拥有最广泛的 AI 基础设施产品之一，并支持在云中运行一些要求最高的 AI 工作负载的客户。”“借助 Oracle 的分布式云，客户可以灵活地在他们选择的任何地方部署云和 AI 服务，同时保留最高级别的数据和 AI 主权。”

多家公司已经从这种先进的基础设施中受益。WideLabs 和 Zoom 正在利用 OCI 的高性能 AI 基础设施来加速他们的 AI 开发，同时保持主权控制。

Nvidia 超大规模和高性能计算副总裁 Ian Buck 表示：“随着企业、研究人员和国家竞相利用 AI 进行创新，获得强大的计算集群和 AI 软件至关重要。Nvidia 在 Oracle 广泛分布的云上的全栈 AI 计算平台将以前所未有的规模提供 AI 计算能力，以推动全球 AI 工作，并帮助世界各地的组织加速研究、开发和部署。”

即将推出的 OCI 超级集群将使用 Nvidia 的 GB200 NVL72 液冷机柜，其中有 72 个 GPU，它们在单个 NVLink 域中以 129.6 TB/s 的总带宽相互通信。Oracle 表示，Nvidia 的 Blackwell GPU 将于 2025 年上半年上市（因为今年 Blackwell 的供应有限），但目前尚不清楚 OCI 何时会提供满载的 Blackwell 驱动集群。

首个 Zettascale 云计算集群

Oracle 今天宣布推出首批由 NVIDIA Blackwell 平台加速的泽塔级云计算集群。Oracle云基础设施(OCI) 现已开始接受云端最大 AI 超级计算机的订单，该超级计算机最多可配备 131,072 个 NVIDIA Blackwell GPU。

Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示：“我们拥有最广泛的 AI 基础设施产品之一，并支持在云中运行一些要求最苛刻的 AI 工作负载的客户。借助 Oracle 的分布式云，客户可以灵活地在他们选择的任何地方部署云和 AI 服务，同时保留最高级别的数据和 AI 主权。”

OCI 目前正在接受云端最大 AI 超级计算机的订单，该超级计算机配备多达 131,072 个 NVIDIA Blackwell GPU，峰值性能达到前所未有的 2.4 zettaFLOPS。OCI Supercluster的最大规模提供的 GPU 数量是 Frontier 超级计算机的三倍多，是其他超大规模计算机的六倍多。OCI Supercluster 包括 OCI Compute Bare Metal、具有 ConnectX-7 NIC 和 ConnectX-8 SuperNIC 的超低延迟 RoCEv2 或基于 NVIDIA Quantum-2 InfiniBand 的网络，以及 HPC 存储的选择。

OCI 超级集群可与由 NVIDIA H100 或 H200 Tensor Core GPU 或 NVIDIA Blackwell GPU 驱动的 OCI Compute 一起订购。配备 H100 GPU 的 OCI 超级集群可扩展至 16,384 个 GPU，性能高达 65 ExaFLOPS，聚合网络吞吐量为 13Pb/s。配备 H200 GPU 的 OCI 超级集群将扩展到 65,536 个 GPU，性能高达 260 ExaFLOPS，聚合网络吞吐量为 52Pb/s，将于今年晚些时候上市。配备NVIDIA GB200 NVL72液冷裸机实例的 OCI 超级集群将使用 NVLink 和 NVLink Switch，使最多 72 个 Blackwell GPU 能够在单个 NVLink 域中以 129.6 TB/s 的总带宽相互通信。NVIDIA Blackwell GPU 将于 2025 年上半年上市，配备第五代 NVLink、NVLink Switch 和集群网络，可实现单个集群中的无缝 GPU-GPU 通信。

NVIDIA 超大规模和高性能计算副总裁 Ian Buck 表示：“随着企业、研究人员和国家竞相利用 AI 进行创新，获得强大的计算集群和 AI 软件至关重要。NVIDIA 在 Oracle 广泛分布的云上提供的全栈 AI 计算平台将以前所未有的规模提供 AI 计算能力，以推动全球 AI 工作，并帮助世界各地的组织加速研究、开发和部署。”

WideLabs 和 Zoom 等客户正在利用 OCI 具有强大安全性和主权控制的高性能 AI 基础设施。

参考链接

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-and-oracle-team-up-for-zettascale-cluster-available-with-up-to-131072-blackwell-gpus

END

????半导体精品公众号推荐????

▲点击上方名片即可关注

专注半导体领域更多原创内容

▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3884内容，欢迎关注。