特斯拉自研芯片背后的野心

2024-08-04

阅读数：

????如果您希望可以时常见面，欢迎标星????收藏哦~

来源：内容由半导体行业观察（ID： icba nk）编译自techcruch，谢谢。

多年来，埃隆·马斯克一直在谈论 Dojo——这台人工智能超级计算机将成为特斯拉人工智能雄心的基石。它对马斯克来说非常重要，他最近表示，随着特斯拉准备在 10 月推出其自动驾驶出租车，该公司的人工智能团队将“加倍投入”Dojo。

但 Dojo 到底是什么？它为何对特斯拉的长期战略如此重要？

简而言之：Dojo 是特斯拉定制的超级计算机，旨在训练其“全自动驾驶”神经网络。增强 Dojo 与特斯拉实现全自动驾驶并将自动驾驶出租车推向市场的目标相辅相成。目前约有 200 万辆特斯拉汽车配备了 FSD，它可以执行一些自动驾驶任务，但仍需要驾驶员在驾驶时保持注意力。

特斯拉将原定于 8 月发布的自动驾驶出租车推迟到 10 月，但马斯克的公开言论和特斯拉内部消息人士都告诉我们，自动驾驶的目标不会消失。

而特斯拉似乎准备在人工智能和 Dojo 上投入巨资来实现这一壮举。

特斯拉Dojo的背景故事

马斯克不希望特斯拉只是一家汽车制造商，甚至不是一家太阳能电池板和储能系统的供应商。相反，他希望特斯拉成为一家人工智能公司，一家通过模仿人类感知破解自动驾驶汽车密码的公司。

大多数开发自动驾驶汽车技术的其他公司都依靠多种传感器（如激光雷达、雷达和摄像头）来感知世界，以及使用高清地图来定位车辆。特斯拉认为，仅依靠摄像头捕捉视觉数据，然后使用先进的神经网络来处理这些数据，并快速决定汽车应该如何行驶，就可以实现完全自动驾驶。

正如特斯拉前人工智能主管 Andrej Karpathy 在2021 年该汽车制造商的首个人工智能日上所说，该公司基本上是在试图“从头开始打造一种合成动物”。（马斯克自 2019 年以来一直在暗示 Dojo，但特斯拉在人工智能日正式宣布了这一点。）

Alphabet 旗下 Waymo 等公司已通过更传统的传感器和机器学习方法将 4 级自动驾驶汽车商业化，SAE 将其定义为在特定条件下无需人工干预即可自动驾驶的系统。特斯拉尚未生产出不需要人类驾驶的自动驾驶系统。

约有 180 万人为特斯拉的 FSD支付了高昂的订阅费，目前售价为 8,000 美元，最高售价为 15,000 美元。该公司宣称，经过 Dojo 训练的 AI 软件最终将通过无线更新推送给特斯拉客户。FSD 的规模还意味着特斯拉能够收集数百万英里的视频片段，用于训练 FSD。该公司的想法是，特斯拉收集的数据越多，这家汽车制造商就越接近实现完全自动驾驶。

然而，一些行业专家表示，将更多数据输入模型并期望其变得更加智能的蛮力方法可能存在局限性。

普渡大学硅谷电气与计算机工程教授 Anand Raghunathan 告诉 TechCrunch：“首先，存在经济约束，而且很快这样做的成本就会变得太高。”此外，他还表示：“有些人声称，我们可能真的会用尽有意义的数据来训练模型。更多的数据并不一定意味着更多的信息，所以这取决于这些数据是否包含可用于创建更好模型的信息，以及训练过程是否能够真正将这些信息提炼成更好的模型。”

Raghunathan 表示，尽管存在这些疑虑，但至少在短期内，数据量增加的趋势似乎会持续下去。数据量增加意味着需要更多的计算能力来存储和处理所有数据，以训练特斯拉的人工智能模型。这就是超级计算机 Dojo 的作用所在。

什么是超级计算机？

Dojo 是特斯拉的超级计算机系统，旨在作为人工智能（特别是 FSD）的训练场。这个名字是对练习武术的空间的致敬。

超级计算机由数千台称为节点的小型计算机组成。每个节点都有自己的 CPU（中央处理器）和 GPU（图形处理器）。前者负责节点的整体管理，后者负责复杂的事情，比如将任务分成多个部分并同时处理它们。GPU 对于机器学习操作至关重要，比如那些在模拟中支持 FSD 训练的操作。它们还为大型语言模型提供支持，这就是为什么生成式人工智能的兴起让 Nvidia 成为地球上最有价值的公司。

甚至特斯拉也购买 Nvidia GPU 来训练其人工智能。

特斯拉为什么需要超级计算机？

特斯拉的纯视觉方法是特斯拉需要超级计算机的主要原因。FSD 背后的神经网络经过大量驾驶数据训练，可以识别和分类车辆周围的物体，然后做出驾驶决策。这意味着当 FSD 启动时，神经网络必须以与人类的深度和速度识别能力相匹配的速度持续收集和处理视觉数据。

换句话说，特斯拉的意思是创造人类视觉皮层和大脑功能的数字复制品。

为了实现这一目标，特斯拉需要存储和处理从全球汽车收集的所有视频数据，并运行数百万次模拟来根据数据训练其模型。

特斯拉似乎依赖 Nvidia 为其当前的 Dojo 训练计算机提供动力，但它不想孤注一掷——尤其是因为 Nvidia 芯片价格昂贵。特斯拉还希望制造出更好的产品，以增加带宽并减少延迟。这就是为什么这家汽车制造商的 AI 部门决定推出自己的定制硬件程序，旨在比传统系统更有效地训练 AI 模型。

该计划的核心是特斯拉专有的 D1 芯片，该公司表示该芯片针对人工智能工作负载进行了优化。

有关这些芯片的更多信息

特斯拉与苹果持有类似观点，认为硬件和软件应该协同工作。因此，特斯拉正努力摆脱标准 GPU 硬件，设计自己的芯片来为 Dojo 提供支持。

特斯拉在 2021 年 AI Day 上发布了 D1 芯片，这是一款手掌大小的硅片。D1 芯片至少在今年 5 月就已投入生产。台湾半导体制造公司 (TSMC) 使用 7 纳米半导体节点制造该芯片。特斯拉称，D1 拥有 500 亿个晶体管和 645 平方毫米的大芯片尺寸。这一切都表明，D1 有望非常强大和高效，并能快速处理复杂任务。

“我们可以同时进行计算和数据传输，我们的定制 ISA（即指令集架构）已针对机器学习工作负载进行了全面优化，”前 Autopilot 硬件高级总监 Ganesh Venkataramanan 在特斯拉 2021 年 AI Day 上表示。“这是一台纯粹的机器学习机器。”

不过，D1 的性能仍不如 Nvidia 的 A100 芯片，后者也是由台积电采用 7 纳米工艺制造的。A100 包含 540 亿个晶体管，芯片尺寸为 826 平方毫米，因此性能略优于特斯拉的 D1。

为了获得更高的带宽和更高的计算能力，特斯拉的人工智能团队将 25 个 D1 芯片融合成一个区块，以作为一个统一的计算机系统运行。每个区块的计算能力为 9 千万亿次浮点运算和 36 兆兆字节每秒的带宽，并包含电源、冷却和数据传输所需的所有硬件。你可以将区块想象成一台由 25 台小型计算机组成的自给自足的计算机。其中六块区块组成一个机架，两块机架组成一个机柜。十个机柜组成一个 ExaPOD。在 2022 年人工智能日，特斯拉表示 Dojo 将通过部署多个 ExaPOD 来扩展。所有这些加在一起构成了超级计算机。

特斯拉还在研发下一代 D2 芯片，旨在解决信息流瓶颈问题。D2 芯片不会将各个芯片连接起来，而是将整个 Dojo 芯片放在一块硅片上。

特斯拉尚未确认已订购或预计收到的 D1 芯片数量。该公司也没有提供 Dojo 超级计算机在 D1 芯片上运行所需的时间表。

在回应6 月份 X 上的一篇帖子时，马斯克表示：“埃隆正在德克萨斯州建造一个巨大的 GPU 冷却器”，特斯拉的目标是在未来 18 个月左右实现“一半特斯拉 AI 硬件，一半 Nvidia/其他”。根据马斯克 1 月份的评论， “其他”可能是 AMD 芯片。

Dojo 对特斯拉来说意味着什么？

控制自己的芯片生产意味着特斯拉有朝一日能够以低成本为人工智能训练程序快速增加大量计算能力，特别是在特斯拉和台积电扩大芯片生产规模的情况下。

这也意味着特斯拉未来可能不需要依赖英伟达的芯片，因为英伟达的芯片价格越来越高，而且难以保证安全。

在特斯拉第二季度财报电话会议上，马斯克表示，对 Nvidia 硬件的需求“如此之高，以至于很难获得 GPU”。他说他“非常担心我们是否能在需要时获得稳定的 GPU，因此我认为这要求我们在 Dojo 上投入更多精力，以确保我们拥有所需的训练能力。”

尽管如此，特斯拉今天仍在购买 Nvidia 芯片来训练其 AI。6 月，马斯克在 X 上发帖称：

“我说过，特斯拉今年将在人工智能方面投入约 100 亿美元，其中约一半是内部支出，主要是特斯拉设计的人工智能推理计算机和传感器，这些设备都安装在我们所有的汽车上，还有 Dojo。在构建人工智能训练超级集群方面，英伟达硬件约占成本的 2/3。我目前对特斯拉今年将收购英伟达硬件的最佳猜测是 30 亿至 40 亿美元。”

推理计算是指特斯拉汽车实时执行的人工智能计算，与 Dojo 负责的训练计算是分开的。

Dojo 是一次冒险的赌注，马斯克曾多次表示特斯拉可能不会成功。

从长远来看，特斯拉理论上可以基于其人工智能部门创建新的商业模式。马斯克表示，Dojo 的第一个版本将针对特斯拉计算机视觉标记和训练进行量身定制，这对于 FSD 和训练特斯拉的人形机器人Optimus非常有用。但它在其他方面用处不大。

马斯克表示，未来版本的 Dojo 将更适合通用 AI 训练。一个潜在的问题是，几乎所有的 AI 软件都是为与 GPU 配合使用而编写的。使用 Dojo 训练通用 AI 模型需要重写软件。

也就是说，除非特斯拉出租其计算能力，就像 AWS 和 Azure 出租云计算能力一样。马斯克在第二季度财报中还指出，他认为“Dojo 是一条与 Nvidia 竞争的道路。”

摩根士丹利 (Morgan Stanley) 2023 年 9 月的一份报告预测，Dojo 可以通过以机器人出租车和软件服务的形式开辟新的收入来源，为特斯拉的市值增加 5000 亿美元。

简而言之，Dojo 的芯片是汽车制造商的一份保险单，但却可以带来红利。

Dojo 进展如何了？

路透社去年报道称，特斯拉将于 2023 年 7 月开始生产 Dojo，但马斯克在2023 年 6 月的一篇帖子中暗示，Dojo 已经“上线并运行了几个月的有用任务”。

大约在同一时间，特斯拉表示，预计到 2024 年 2 月，Dojo 将成为五大最强大的超级计算机之一——这一壮举尚未公开披露，因此我们怀疑它是否已经实现。

该公司还表示，预计 Dojo 的总计算能力将在 2024 年 10 月达到 100 百亿亿次浮点运算。（1 百亿亿次浮点运算相当于每秒 1 千万亿次计算机运算。要达到 100 百亿亿次浮点运算，并假设一台 D1 可以达到 362 万亿次浮点运算，特斯拉将需要超过 276,000 个 D1，或大约 320,500 个 Nvidia A100 GPU。）

特斯拉还于 2024 年 1 月承诺斥资 5 亿美元在其位于纽约布法罗的超级工厂建造一台 Dojo 超级计算机。

2024 年 5 月，马斯克指出，特斯拉奥斯汀超级工厂的后部将保留用于“超密集、水冷超级计算机集群”。

就在特斯拉第二季度财报电话会议结束后，马斯克在 X 上发帖称，该汽车制造商的 AI 团队正在使用特斯拉 HW4 AI 计算机（更名为 AI4），这是特斯拉汽车上的硬件，与 Nvidia GPU 一起进行训练循环。他指出，细分大约是 90,000 台 Nvidia H100 加上 40,000 台 AI4 计算机。

“到今年年底，Dojo 1 将提供大约 8000 H100 的在线培训，”他继续说道。“规模不大，但也不小。”

参考链接

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

点这里????加关注，锁定更多原创内容

END

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3847内容，欢迎关注。