电子头条

一个拥有131072 个GPU的超算集群

2024-09-13
    阅读数:

????如果您希望可以时常见面,欢迎标星????收藏哦~


来源:内容 编译自tomshardware ,谢谢。


甲骨文周三推出了新型集群,可通过 Oracle 云基础设施 (OCI) 进行 AI 训练。最强大的集群将基于 Nvidia 即将推出的 Blackwell GPU,并将提供高达 2.4 ZettaFLOPS 的 AI 性能,使其比 Elon Musk 最近宣布的 AI 集群更强大。


甲骨文的新型超级计算机集群可以配置 Nvidia 的 Hopper 或 Blackwell GPU 用于 AI 和 HPC,以及不同的网络设备,包括带有 ConnectX-7 NIC 和 ConnectX-8 SuperNIC 的超低延迟 RoCEv2 或基于 Nvidia 的 Quantum-2 InfiniBand 的网络,以及根据性能需求选择的 HPC 存储:


配备 H100 GPU的 OCI 超级集群 最多可支持 16,384 个 GPU,提供 65 FP8/INT8 exaFLOPS 的峰值性能和 13 Pb/s(每秒 13 拍比特)的组合网络吞吐量。


由H200 GPU驱动的 OCI 超级集群将于今年晚些时候推出,将扩展到 65,536 个 GPU,提供高达 260 FP8/INT8 exaFLOPS 和 52 Pb/s 的网络吞吐量。


最后,基于 Blackwell B200 GPU 的OCI 超级集群 将扩展到 131,072 个 GPU,并提供高达 2.4 FP8/INT8 zettaFLOPS 的峰值性能。


OCI 即将推出的超级计算集群远远超出了当前领先系统的能力。据 Oracle 称,基于顶级 B200 的 OCI 超级集群的 GPU 数量是 Frontier 超级计算机(使用 37,888 个 AMD Instinct MI250X GPU)的三倍多,是其他超大规模计算系统的六倍。


Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示:“我们拥有最广泛的 AI 基础设施产品之一,并支持在云中运行一些要求最高的 AI 工作负载的客户。”“借助 Oracle 的分布式云,客户可以灵活地在他们选择的任何地方部署云和 AI 服务,同时保留最高级别的数据和 AI 主权。”


多家公司已经从这种先进的基础设施中受益。WideLabs 和 Zoom 正在利用 OCI 的高性能 AI 基础设施来加速他们的 AI 开发,同时保持主权控制。


Nvidia 超大规模和高性能计算副总裁 Ian Buck 表示:“随着企业、研究人员和国家竞相利用 AI 进行创新,获得强大的计算集群和 AI 软件至关重要。Nvidia 在 Oracle 广泛分布的云上的全栈 AI 计算平台将以前所未有的规模提供 AI 计算能力,以推动全球 AI 工作,并帮助世界各地的组织加速研究、开发和部署。”


即将推出的 OCI 超级集群将使用 Nvidia 的 GB200 NVL72 液冷机柜,其中有 72 个 GPU,它们在单个 NVLink 域中以 129.6 TB/s 的总带宽相互通信。Oracle 表示,Nvidia 的 Blackwell GPU 将于 2025 年上半年上市(因为 今年 Blackwell 的供应有限),但目前尚不清楚 OCI 何时会提供满载的 Blackwell 驱动集群。


首个 Zettascale 云计算集群


Oracle 今天宣布推出首批由 NVIDIA Blackwell 平台加速的泽塔级云计算集群。Oracle云基础设施(OCI) 现已开始接受云端最大 AI 超级计算机的订单,该超级计算机最多可配备 131,072 个 NVIDIA Blackwell GPU。


Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示:“我们拥有最广泛的 AI 基础设施产品之一,并支持在云中运行一些要求最苛刻的 AI 工作负载的客户。借助 Oracle 的分布式云,客户可以灵活地在他们选择的任何地方部署云和 AI 服务,同时保留最高级别的数据和 AI 主权。”


OCI 目前正在接受云端最大 AI 超级计算机的订单,该超级计算机配备多达 131,072 个 NVIDIA Blackwell GPU,峰值性能达到前所未有的 2.4 zettaFLOPS。OCI Supercluster的最大规模提供的 GPU 数量是 Frontier 超级计算机的三倍多,是其他超大规模计算机的六倍多。OCI Supercluster 包括 OCI Compute Bare Metal、具有 ConnectX-7 NIC 和 ConnectX-8 SuperNIC 的超低延迟 RoCEv2 或基于 NVIDIA Quantum-2 InfiniBand 的网络,以及 HPC 存储的选择。


OCI 超级集群可与由 NVIDIA H100 或 H200 Tensor Core GPU 或 NVIDIA Blackwell GPU 驱动的 OCI Compute 一起订购。配备 H100 GPU 的 OCI 超级集群可扩展至 16,384 个 GPU,性能高达 65 ExaFLOPS,聚合网络吞吐量为 13Pb/s。配备 H200 GPU 的 OCI 超级集群将扩展到 65,536 个 GPU,性能高达 260 ExaFLOPS,聚合网络吞吐量为 52Pb/s,将于今年晚些时候上市。配备NVIDIA GB200 NVL72液冷裸机实例的 OCI 超级集群将使用 NVLink 和 NVLink Switch,使最多 72 个 Blackwell GPU 能够在单个 NVLink 域中以 129.6 TB/s 的总带宽相互通信。NVIDIA Blackwell GPU 将于 2025 年上半年上市,配备第五代 NVLink、NVLink Switch 和集群网络,可实现单个集群中的无缝 GPU-GPU 通信。


NVIDIA 超大规模和高性能计算副总裁 Ian Buck 表示:“随着企业、研究人员和国家竞相利用 AI 进行创新,获得强大的计算集群和 AI 软件至关重要。NVIDIA 在 Oracle 广泛分布的云上提供的全栈 AI 计算平台将以前所未有的规模提供 AI 计算能力,以推动全球 AI 工作,并帮助世界各地的组织加速研究、开发和部署。”


WideLabs 和 Zoom 等客户正在利用 OCI 具有强大安全性和主权控制的高性能 AI 基础设施。


参考链接

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-and-oracle-team-up-for-zettascale-cluster-available-with-up-to-131072-blackwell-gpus


END


????半导体精品公众号推荐????

▲点击上方名片即可关注

专注半导体领域更多原创内容


▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3884内容,欢迎关注。


推荐阅读


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点 “在看” 分享给小伙伴哦

展开↓