电子头条

AMD的豪赌

2024-08-27
    阅读数:

????如果您希望可以时常见面,欢迎标星????收藏哦~


来源:内 容编译自hpcwire,谢谢。


AMD 早前召开电话会议,讨论以 49 亿美元收购 ZT Systems 的交易,这让人们深入了解了 Lisa Su 如何打造自己的 AI 帝国。她描绘的 AMD AI 格局与 Nvidia 的专有方法截然相反。


在她看来,客户有两个选择:一个是选择反乌托邦的 Nvidia 世界(其中 Nvidia 拥有资产);另一个是选择 AMD 的世界,在那里你可以选择你的合作伙伴、硬件、技术和 AI 工具。


收购 ZT Systems 正是秉承这一精神:为工程师提供构建针对 AI 处理和功耗进行优化的系统的能力。


苏认为,其人工智能产品将会非常具有差异化。


苏说:“我们实际上可以利用我们的系统功能,让客户使用他们认为最适合其工作负载和数据中心环境的功能。”


可以肯定的是,全栈供应商似乎并不新鲜。AMD一直在通过收购计算的所有关键部分(软件、硬件和网络)来增强其系统供应商能力。




复制英伟达的战略




今年早些时候,AMD 宣布每年都会发布一款新 GPU,与 Nvidia 类似。ZT Systems 为 AMD 提供了 1,000 名工程师来构建系统,就像 Nvidia 的工程师构建 DGX 系统一样。


苏表示:“ZT 每年向最大的超大规模云公司出货数十万台服务器和数万个 AI 机架,质量达到业界领先水平。”


这听起来像是 Nvidia 目前的策略——所有主要云提供商都为 Nvidia 提供了安装 DGX 系统的空间。Nvidia 已经构建了自己的并行云服务,将其 GPU 系统与所有云提供商连接起来。


苏姿丰表示:“我们试图给客户提供选择,同时利用我们的技术为他们提供一流的设计能力。”


虽然 AMD 获得了赞誉,但要成为下一个 Nvidia,还有很多事情要做。


Nvidia 花了几十年的时间才达到今天的水平。转型包括:


  • 2007年使用CUDA构建软件框架。

  • 展望人工智能能力。

  • 提供第一个允许 OpenAI 测试其 AI 模型的硬件。

  • AMD 不是 Nvidia,要想成为下一个 Nvidia,还需要做很多事情


现在是审视公司需要解决的问题的好时机。




AMD 的 GPU 仍然面临问题




正确使用 GPU 可确保 AMD 的 AI 世界抵挡住 Nvidia 的猛烈攻击。


AMD 对其 GPU 的进展感到满意。MI300X 深受 Microsoft 和 Meta 等顶级客户的青睐。


但让我们快速看看现实情况:三大云提供商中的两家仍然不想要 MI300 或 MI300X GPU。谷歌和 AWS 尚未订购 AMD GPU。这可能是AMD 收购 ZT Systems 的原因——让更多云提供商加入。


AMD 的 GPU 可能只是穷人版的 Nvidia,没有客户急需购买硬件。然而,AMD 的 GPU 是 Nvidia 的唯一合法替代品,订单正在增加。


苏姿丰表示:“我们现在预计 2024 年数据中心 GPU 收入将超过 45 亿美元,高于我们 4 月份预测的 40 亿美元。”


今年早些时候,AMD 透露它将每年发布一款新的 GPU,与 Nvidia 非常相似,其中包括 MI325X 和明年的 MI400。


苏姿丰表示:“我们基于 CDNA Next 架构的 MI400 系列在开发中取得了巨大进展,计划于 2026 年推出。”


好消息是 AMD 有 GPU 路线图,客户现在对自己购买的产品有了清晰的认识。如果一切朝着对 AMD 有利的方向发展,到 2026 年,情况可能会发生巨大变化。


“这涉及到 CPU、GPU、网络、系统和 集群。你如何确保它们的可靠性?这个团队将帮助我们做到这一点,因为他们已经做到了,”苏说。


苏表示,采用 AMD MI350(将于明年推出)和 MI400 的系统将产生复杂的系统,需要从 ZT Systems 聘请专家。


AMD在硬件功能、内存和制造方面紧跟 Nvidia 的步伐。




笨拙的基准测试和软件




AMD 的基准测试结果五花八门。该公司尚未向 MLPerf 提交其 AI 基准测试,但微软和 Meta 证实 AMD 的 Instinct GPU 表现良好。


AMD 最近因不诚实地介绍即将推出的 Turin CPU 而受到英特尔的批评。其 Zen 5 PC CPU 最近因性能提升不佳而受到批评。


基准测试很难,但最好谨慎对待。然而,该公司的软件生态系统与 Nvidia 建立的 CUDA 堆栈相去甚远。


AMD 花费了数年时间开发 ROCm,它是一套标准的工具、库、驱动程序和编译器。但它仍处于起步阶段。


苏在财报电话会议上表示:“从功能的角度来看, ROCm ......我们在整个过程中获得了很多信心,也学到了很多东西。”


AMD 高管在许多会议上都对 ROCm 重复了同样的话,这意味着这项工作多年来一直在进行中。


AMD 仍然停留在编程层面,落后于基于 OneAPI 的 UXL 基金会的并行编程框架。


不过,ROCm 的开放性符合 AMD 能够处理工作负载的目标。问题是开发人员是否会适应 ROCm。




ROCm 与 CUDA




Nvidia 凭借 CUDA 领先 ROCm 数光年,CUDA 已发展成为成熟的计算程序和数据集。主要垂直行业的 CUDA 可执行文件包括机器人、自动驾驶汽车、医疗保健、金融和量子计算。


CUDA 工具用于生成现实世界中无法获得的合成数据。这些工具和其他工具被整合到 Nvidia 的 AI Enterprise 软件中。


但毫无疑问,Nvidia 的 CUDA 价格昂贵。但它也更容易部署——客户只需输入数据并获得输出。对于那些需要进一步定制的人来说,CUDA 工具的技术难度可以提高。


AMD 的 ROCm 很复杂,但它在工具和模型开发方面提供了更大的灵活性。AMD 还支持开放网络技术。


苏姿丰表示:“我们正与超级以太网联盟以及 UA Link 集团密切合作,以确保我们拥有符合行业标准的强大网络技术。”




正确的步骤




AMD 对 ZT Systems 的收购是该公司为填补漏洞而采取的一系列战略收购中的最新一次。


AMD 进行了有趣的收购,以制定其总体 AI 计划。2022 年,AMD 斥资 490 亿美元收购 Xilinx 的 FPGA 和软件。AMD 拥有 CPU 和 GPU,而 Xilinx 则为其提供了 FPGA 和 ASIC 的三重奏。


该公司还收购了软件公司 Pensando Systems、Silo.AI 和 Nod。


苏姿丰在财报电话会议上表示:“Silo 团队极大地扩展了我们为希望针对 AMD 硬件优化 AI 解决方案的大型企业客户提供服务的能力。”


该公司将继续寻求战略性收购。


苏表示:“我们将继续研究如何积极增强我们的能力,包括有机和无机两种方式。”


参考链接

https://www.hpcwire.com/2024/08/26/amds-ai-plan-the-nvidia-killer-or-a-wasted-effort/


END


????半导体精品公众号推荐????

▲点击上方名片即可关注

专注半导体领域更多原创内容


▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3867内容,欢迎关注。


推荐阅读


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点 “在看” 分享给小伙伴哦

展开↓