历史上的今天
返回首页

历史上的今天

今天是:2026年03月21日(星期六)

正在发生

2023年03月21日 | ChatGPT背后,是微软超级昂贵的超级计算机

2023-03-21 来源:新智元

【导读】ChatGPT背后,是微软超级昂贵的超级计算机,耗资数亿美元,用了数万颗。

ChatGPT能成为如今火遍全球的顶流模型,少不了背后超强的算力。

数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。

那么,作为依托的那台微软专为Open打造的超级计算机,又是如何诞生的呢?

周一,微软在官博上连发两文,亲自解密这台超级昂贵的超级计算机,以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand互连技术。

基于此,微软也官宣了的ND H100 v5虚拟机,具体规格如下:

8个NVIDIA H100 nsor Core 通过下一代NVSwitch和NVLink 4.0互联

每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络

NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽

第四代至强可扩展处理器

PCIE Gen5到GPU互连,每个GPU有6B/s带宽

16通道4800MHz DDR5 DIMM

数亿美元撑起来的算力

大约五年前,OpenAI向微软提出了一个大胆的想法——建立一个可以永远改变人机交互方式的系统。

当时,没人能想到,这将意味着AI可以用纯语言创造出人类所描述的任何图片,人类可以用聊天来写诗、写歌词、写论文、写邮件、写菜单……

为了建立这个系统,OpenAI需要很多算力——可以真正支撑起超大规模计算的那种。

但问题是,微软能做到吗?

毕竟,当时既没有能满足OpenAI需要的,也无法确定在Azure云服务中构建这样庞大的超级计算机会不会直接把系统搞崩。

随后,微软便开启了一段艰难的摸索。

为了构建支持OpenAI项目的超级计算机,它斥资数亿美元,在Azure平台上将几万个Nvidia A100芯片连接在一起,并改造了服务器机架。

此外,为了给OpenAI量身打造这个超算平台,微软十分尽心,一直在密切关注着OpenAI的需求,随时了解他们在训练AI时最关键的需要。

这么一个大工程,成本究竟是多少呢?微软负责云计算和人工智能的执行副总裁Scott Guthrie不愿透露具体数目,但他表示,「可能不止」几亿美元。

OpenAI出的难题

微软负责战略合作伙伴关系的高管Phil Waymouth指出,OpenAI训练模型所需要的云计算基础设施规模,是业内前所未有的。

呈指数级增长的网络GPU集群规模,超过了业内任何人试图构建的程度。

微软之所以下定决心与OpenAI 合作,是因为坚信,这种前所未有的基础设施规模将改变历史,造出全新的AI,和全新的平台,为客户提供切实符合他们利益的产品和服务。

现在看来,这几亿美元显然没白花——宝押对了。

在这台超算上,OpenAI能够训练的模型越来越强大,并且解锁了AI工具令人惊叹的功能,几乎开启人类第四次革命的ChatGPT,由此诞生。

非常满意的微软,在1月初又向OpenAI狂砸100亿美元。

可以说,微软突破AI超算界限的雄心,已经得到了回报。而这背后体现的,是从实验室研究,到AI产业化的转变。

目前,微软的办公软件帝国已经初具规模。

ChatGPT版必应,可以帮我们搜索假期安排;Viva Sales中的聊天机器人可以帮营销人员写邮件;GitHub Colot可以帮续写代码;Azure OpenAI 服务可以让我们访问OpenAI的大语言模型,还能访问Azure的企业级功能。

和英伟达联手

其实,在去年11月,微软就曾官宣,要与Nvidia联手构建「世界上最强大的AI超级计算机之一」,来处理训练和扩展AI所需的巨大计算负载。

这台超级计算机基于微软的Azure云基础设施,使用了数以万计个Nvidia H100和A100Tensor Core GPU,及其Quantum-2 InfiniBand网络平台。

Nvidia在一份声明中表示,这台超级计算机可用于研究和加速DALL-E和Stable Diffusion等生成式AI模型。

随着AI研究人员开始使用更强大的GPU来处理更复杂的AI工作负载,他们看到了AI模型更大的潜力,这些模型可以很好地理解细微差别,从而能够同时处理许多不同的语言任务。

简单来说,模型越大,你拥有的数据越多,你能训练的时间越长,模型的准确性就越好。

但是这些更大的模型很快就会到达现有计算资源的边界。而微软明白,OpenAI需要的超级计算机是什么样子,需要多大的规模。

这显然不是说,单纯地购买一大堆GPU并将它们连接在一起之后,就可以开始协同工作的东西。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell表示:「我们需要让更大的模型训练更长的时间,这意味着你不仅需要拥有最大的基础设施,你还必须让它长期可靠地运行。」

Azure全球基础设施总监Alistair Spei表示,微软必须确保它能够冷却所有这些机器和芯片。比如,在较凉爽的气候下使用外部空气,在炎热的气候下使用高蒸发冷却器等。

此外,由于所有的机器都是同时启动的,所以微软还不得不考虑它们和的摆放位置。就像你在厨房里同时打开微波炉、烤面包机和吸尘器时可能会发生的情况,只不过是数据中心的版本。

大规模AI训练

完成这些突破,关键在哪里?

难题就是,如何构建、操作和维护数万个在高吞吐量、低延迟InfiniBand网络上互连的共置GPU。

这个规模,已经远远超出了GPU和网络设备供应商测试的范围,完全是一片未知的领域。没有任何人知道,在这种规模下,硬件会不会崩。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell解释道,在LLM的训练过程中,涉及到的大规模计算通常会被划分到一个集群中的数千个GPU上。

在被称为allreduce的阶段,GPU之间会互相交换它们所做工作的信息。此时就需要通过InfiniBand网络进行加速,从而让GPU在下一块计算开始之前完成。

Nidhi Chappell表示,由于这些工作跨越了数千个GPU,因此除了要确保基础设施的可靠外,还需要大量很多系统级优化才能实现最佳的性能,而这是经过许多代人的经验总结出来的。

所谓系统级优化,其中就包括能够有效利用GPU和网络设备的软件。

在过去的几年里,微软已经开发出了这种技术,在使训练具有几十万亿个参数的模型的能力得到增长的同时,降低了训练和在生产中提供这些模型的资源要求和时间。

Waymouth指出,微软和合作伙伴也一直在逐步增加GPU集群的容量,发展InfiniBand网络,看看他们能在多大程度上推动保持GPU集群运行所需的数据中心基础设施,包括冷却系统、不间断电源系统和备用发电机。

微软AI平台公司副总裁Eric Boyd表示,这种为大型语言模型训练和下一波AI创新而优化的超算能力,已经可以在Azure云服务中直接获得。

并且微软通过与OpenAI的合作,积累了大量经验,当其他合作方找来、想要同样的基础设施时,微软也可以提供。

现在,微软的Azure数据中心已经覆盖了全球60多个地区。

全新虚拟机:ND H100 v5

在上面这个基础架构上,微软一直在继续改进。

今天,微软就官宣了全新的可大规模扩展虚拟机,这些虚拟机集成了最新的NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络。

通过虚拟机,微软可以向客户提供基础设施,根据任何AI任务的规模进行扩展。据微软称,Azure的新ND H100 v5 虚拟机为开发者提供卓越的性能,同时调用数千个GPU。

审核编辑 :李倩

推荐阅读

史海拾趣

Cynergy 3公司的发展小趣事

Cynergy 3一直将客户需求放在首位,致力于为客户提供定制化的产品解决方案。公司拥有一支经验丰富的工程师团队,他们与客户紧密合作,深入了解客户的实际需求。在此基础上,Cynergy 3不断推出符合客户需求的新产品和新技术。这种以客户需求为导向的产品创新策略使得Cynergy 3能够不断满足市场的变化需求,保持其在行业中的领先地位。

Antenova公司的发展小趣事

Antenova公司积极寻求与其他行业领导者的战略合作,以推动公司的成长和发展。通过与全球知名的芯片制造商、设备生产商等建立合作关系,Antenova得以将其天线产品集成到更广泛的电子产品中,从而进一步扩大了市场份额。这些战略合作不仅提升了Antenova的品牌知名度,还为公司的长期发展提供了有力支持。

以上是关于Antenova公司发展起来的五个相关故事,这些故事展示了公司在技术创新、市场拓展、产品推出、专业服务以及战略合作等方面的努力和成就。这些成就为Antenova在电子行业中的成功奠定了坚实基础,并为公司未来的持续发展提供了有力保障。

Bridgelux公司的发展小趣事

Bridgelux公司成立于XXXX年,由一群富有远见和创新精神的工程师创立。他们看到了LED照明技术的巨大潜力,并致力于将其商业化。公司初期面临资金和技术双重挑战,但他们凭借坚定的信念和不懈的努力,成功开发出了一系列高质量的LED照明产品,并逐渐获得了市场的认可。

康龙(CONCRAFT)公司的发展小趣事

面对电子行业的快速变化和发展趋势,康龙公司积极拥抱数字化转型。公司引入了先进的ERP系统和数字化工具,实现了从供应链、生产管理到财务管理的全面信息化。这不仅提高了公司的运营效率和管理水平,还为公司的产业升级和未来发展奠定了坚实基础。

Auctor Corp公司的发展小趣事

Auctor Corp公司的创始人,一群富有远见和冒险精神的工程师,怀揣着对电子技术的热情和对市场的敏锐洞察,决定共同创办这家公司。在创业初期,公司面临着资金紧张、技术储备不足等多重困难。然而,团队成员们凭借着坚韧不拔的精神和对技术的执着追求,通过自主研发和不断改进,逐渐在市场上站稳了脚跟。

联智(Celfras)公司的发展小趣事

作为江西省首家提供高端应用芯片整体解决方案的公司,联智在集成电路设计领域展现了其强大的实力。公司不仅关注无线充电技术,还致力于电源管理、低功耗蓝牙、近场感应等IoT(物联网)应用芯片的研发和产业化。这种多元化的产品策略使联智能够满足不同客户的需求,进一步巩固了其在市场中的地位。

问答坊 | AI 解惑

EditASM 单片机汇编编辑器 2.0 发布

EditASM 单片机汇编编辑器 简介 软件版本号:2.0 为什么要开发这个软件?     由于开发单片机各种项目的需要,经常会使用各种不同类型的单片机,而每种单片机的指令集都不一样,经常的改变很容易搞乱指令的用 法,并且单片机种类多 ...…

查看全部问答>

求助:u盘Vxworks

如何在U盘上做一个Vxworks?请指教具体步骤…

查看全部问答>

再次问6410 使用jlink V8 问题

现在RVDS2.2 已经能够编译 6410 2450 等三星提供的测试程序。 但是jlink V8 还是读不出idea6410的ID,有哪位读出过的吗?呵呵。 下面是我现象,请帮忙分析。 …

查看全部问答>

关于根目录下txt文档的目录项结构问题

我想用单片机通过usb接口芯片直接在u盘的根目录下建立一个txt文档,资料上说txt文档占据32个字节的目录项大小,但是当我把u盘格式化成fat文件系统后再在u盘根目录下建立一个txt文档后发现在相应的txt文档目录项的前一部分字节里又多出了几十个字节 ...…

查看全部问答>

实在忍不住再次抱怨一下ST的官网

都快半年过去了 新版网站还是老样子 这速度 这稳定性 干脆撤掉新版 恢复旧版算了 新技术不一定是最合适的 全面采用Java Servlet Page大大加重服务器负荷 全面采用Flash影响本地浏览 原来的静态页面干净清爽 速度快 找东西方便 考虑到ST ...…

查看全部问答>

MSP430L092官方示例代码

附件中代码是TI提供的MSP430L092示例代码,可以作为MSP430使用过程中最可靠的代码参考…

查看全部问答>

9B96的ALE地址锁存

ALE锁存地址时,用电平触发还是上升沿或者下降触发啊???…

查看全部问答>

请问有没有大侠使用飞思卡尔DSP MSC8157的?

请问有没有大侠使用飞思卡尔DSP MSC8157的? 这个资料太少了,不知道有没有公司可以培训呢?…

查看全部问答>

[TI视频]TI汽车技术

作为全球领先的汽车电子产品提供商,TI一直为推动着汽车产业的发展。本视频为您展示TI的未来汽车愿景。TI的汽车技术为当前和今后的汽车提供多种多样的尖端产品和方案,包括让驾驶员获取信息及让乘客享受娱乐的信息娱乐系统、协助停车及检测驾驶员是 ...…

查看全部问答>

车灯 移动工作灯 宽电压10-80V输入降压恒流驱动方案QX6103

广泛应用于车灯 移动工作灯  PAR灯 宽电压10-80V输入降压恒流驱动方案QX6103  可做2A大电流。 概述QX6103是一款高精度降压型大功率LED恒流驱动芯片。适用于输入电压100V以内的大功率LED恒流驱动电源。专利的高端电流检测、固 ...…

查看全部问答>