历史上的今天
返回首页

历史上的今天

今天是:2024年09月07日(星期六)

2021年09月07日 | Dojo系统详细构成

2021-09-07 来源:Astroys

Tesla在上月的AI Day推出了用于机器学习和神经网络训练的芯片、系统和软件。它们将共同推进用于自动驾驶汽车模型的训练。

 

Elon Musk和他的芯片与系统设计团队在超过三小时的演讲中提供了大量的技术细节,以下是其中的一些亮点。


神经网络


Tesla设计了一个灵活、可扩展的分布式计算机架构,专门用于神经网络训练。Tesla的架构从D1芯片开始,该芯片有354个训练节点,每个节点有一个强大的CPU。这些训练节点CPU是为高性能的NN和ML任务设计的,32位浮点运算的最大性能为64GFLOPs。

 

对于拥有354个CPU的D1芯片,32位浮点运算的最大性能是22.6TFLOPs。对于16位浮点计算,D1的最大性能跃升至362TFLOPs。

 

 


Tesla推出了两个用于神经网络训练的系统:Training Tile和ExaPOD。一个Training Tile在一个封装中拥有25个连接的D1芯片。一个由25个D1芯片构成的Training Tile有8850个训练节点,每个节点都有上面提及到的高性能CPU。一个Training Tile的32位浮点运算最大性能是565TFLOPs。

 

ExaPOD将120个Training Tile连接成一个系统,即3000个D1芯片、106.2万个训练节点。一个ExaPOD的32位浮点运算最大性能是67.8PFLOPs。

 

Tesla对神经网络介绍的细节D1芯片和Dojo神经网络训练系统的推出显示出了Tesla的发展方向。这些产品投入使用的研发投资无疑是非常高的。Tesla很可能与其他公司分享这项技术,创造另一个收入来源,类似于卖给其他OEM的电动车积分。

 

下表列出了Tesla的神经网络的特点。这些数据是从当天视频中提取的。笔者在一些地方加入了对芯片和系统架构的理解。

 

Tesla的设计目标是在其芯片和系统中扩展三个系统特性:计算性能、高带宽和计算节点之间的低延迟通信。高带宽和低延迟一直以来都很难扩展到数百或数千的计算节点。看起来Tesla已经成功地将所有三个参数组织在一个连接的二维网格格式中。

 

 


训练节点

 

训练节点是D1芯片上最小的训练单元。它有一个64位处理器,具有4宽标量和4路多线程的程序执行。该CPU还具有8*8向量乘法的2宽向量数据路径。

 

该CPU的指令集架构(ISA)是为机器学习和神经网络训练任务量身定制的。该CPU支持多种浮点格式,32位、16位和8位。FP32、BFP16,以及一种新的格式CFP8或可配置的FP8。

 

该处理器有1.25MB的高速SRAM用于程序和数据存储。该存储器使用ECC或纠错代码以提高可靠性。

 

为了降低训练节点之间的延迟,Tesla挑选了信号在2GHz+时钟频率的一个周期内可传播的最远距离。这定义了训练节点的距离,以及CPU及其支持电子设备的复杂程度。这些参数还允许一个CPU以每秒512G比特的速度与四个相邻的训练节点通信。

 

训练节点的最大性能取决于使用的算法,常以浮点性能来比较。Training Tile的32位浮点性能(FP32)的最大性能是64GFLOPs。BFP16或CFP8算术的最大性能是1,024GFLOPs。


D1芯片


令人印象深刻的D1芯片是一种专用于神经网络训练的设计。D1采用7nm工艺制造,在一个面积为645平方毫米的裸片中封装了500亿个晶体管。该芯片电线长度超过11英里,功耗为400W左右。

 

D1芯片有一个带有高速、低功耗SerDes的I/O环,总共有576条通道环绕着芯片。每条通道的传输速率为112Gbps。D1的最大片上传输速率为10Tbps(每秒10兆位)。芯片每侧的最大片外传输速率为4Tbps。

 

由于D1芯片上的354个CPU中的每一个都有1.25MB的SRAM,加起来就有超过442MB的SRAM。D1芯片的最大性能也是基于354个训练节点的CPU阵列。

 

D1的32位浮点计算的最大性能达到22.6TFLOPs。16位浮点计算的最大性能为362TFLOPs。


Training Tile


Tesla的Training Tile是扩展AI训练系统的基石。一个Training Tile将25个D1芯片集成到一个晶圆上,并被封装成多芯片模块(MCM)。Tesla认为这可能是芯片行业中最大的MCM。Training Tile被封装成一个大芯片,可以通过一个高带宽连接器与其他Training Tile连接,保留了Training Tile的带宽。

 

 

Training Tile的封装包括多层电源和控制、电流分配、计算平面(25个D1芯片)和冷却系统。Training Tile用于IT中心,而不是自动驾驶汽车。

 

Training Tile提供单个D1芯片的25倍性能,或16位浮点计算的9Peta FLOPs,32位浮点计算则高达565TFLOPs。

 

12块232配置的Training Tile可以装在一个柜子里,Tesla称它为Training Matrix。


ExaPOD


Tesla描述的最大系统是ExaPOD。它是由120个Training Tile构成的。加起来有3000个D1芯片和106.2万个训练节点。它装在10个机柜中,显然是为IT中心使用的。

 

ExaPOD的最大性能是16位浮点计算的1.09Exa FLOPs,32位浮点计算的67.8Peta FLOPs。


Dojo软件和DPU


Dojo软件旨在支持大型和小型神经网络的训练。特斯拉有一个编译器来创建软件代码,利用训练节点、D1芯片、Training Tile和ExaPOD系统的结构和能力。它使用的是PyTorch开源机器学习库,并进行了扩展来利用D1芯片和Dojo系统架构。

 

 

这些能力允许大型神经网络被分割和映射,以提取不同的并行性、模型、图形、数据的并行度,从而加速大型神经网络的训练。编译器使用多种技术来提取并行性。它可以利用数据模型图并行技术对网络进行转换以实现细粒度并行,并可以优化以减少内存占用。

 

Dojo接口处理器用于与IT和数据中心的主机通信。它用PCIe 4.0连接到主机,并通过上述的高带宽连接到基于D1的系统。接口处理器还为D1系统提供高带宽的DRAM共享内存。

 

基于D1的系统可以被细分和划分为称为Dojo Processing Unit的单元。DPU由一个或多个D1芯片、一个接口处理器和一个或多个计算机主机组成。DPU虚拟系统可以根据在其上运行的神经网络的需要,扩大或缩小规模。


总结


Tesla的神经网络训练芯片、系统和软件都非常令人印象深刻。有很多创新,比如保留了巨大的带宽和从芯片到系统的低延迟。Training Tile的电源和冷却的封装看起来很创新。

 

神经网络训练系统是用于数据中心的,肯定会被用于改进Tesla的AV软件。其他公司很可能也会使用这些Tesla神经网络训练系统。

 

看起来Tesla希望或依赖这种神经网络训练创新,继续使其基于纯视觉的自动驾驶系统持续改进。这是正确的方向吗?时间会告诉我们,到目前为止,Elon Musk的大部分赌注尽管都有一些时间上的推迟,但都是正确的。

 

 [参考文章]


Tesla AI Day Perspectives — Egil Juliussen


推荐阅读

史海拾趣

思瑞浦微电子科技(3PEAK INCORPORATED)公司的发展小趣事

思瑞浦微电子科技(3PEAK INCORPORATED)公司是一家总部位于台湾的电子元器件制造商,专注于高性能模拟和混合信号集成电路(IC)的设计、开发和销售。以下是关于该公司发展的五个相关故事:

  1. 公司成立和早期发展: 思瑞浦微电子科技公司成立于2003年,初期主要致力于集成电路设计和技术研发。公司在成立初期便注重技术创新和产品质量,通过不断提升研发能力和技术水平,逐渐树立了良好的品牌声誉。

  2. 产品线扩展和市场拓展: 随着公司技术实力的增强和市场需求的不断变化,思瑞浦逐步扩展了产品线,并开始向汽车电子、工业控制、消费电子等领域拓展市场。公司致力于提供高性能、低功耗的模拟和混合信号IC,满足不同领域客户的需求。

  3. 技术创新和专利积累: 思瑞浦在模拟和混合信号集成电路领域不断进行技术创新和研发投入,取得了多项关键技术的突破和专利成果。公司建立了完善的研发体系和技术团队,持续推出具有竞争优势的新产品,加强了在市场上的地位和竞争力。

  4. 国际合作和市场扩张: 为了进一步拓展市场和提升品牌影响力,思瑞浦积极开展国际合作,与全球知名的客户和合作伙伴建立了长期稳定的合作关系。公司产品逐渐进入国际市场,销售网络覆盖了全球多个地区,并取得了可观的业绩和市场份额。

  5. 持续发展和未来展望: 思瑞浦微电子科技公司在不断发展壮大的过程中,始终坚持技术创新和客户导向,不断提升产品质量和服务水平。公司未来将继续致力于研发投入、市场拓展和国际合作,加强在模拟和混合信号集成电路领域的领先地位,为客户提供更优质的产品和解决方案。

Baton Lock公司的发展小趣事

近年来,电子行业经历了多次技术变革和市场调整。面对这些变化,Baton Lock公司积极调整战略,加大了对新兴技术如物联网、人工智能等领域的研发投入。同时,公司还通过优化生产流程、降低成本等方式提高竞争力,成功应对了行业变革带来的挑战。

HCH Co公司的发展小趣事

背景:面对日益激烈的市场竞争,HCH Co公司决定通过智能制造来提升生产效率和产品质量。公司引入先进的自动化生产线和智能物流系统,实现了从原材料采购到成品出库的全程智能化管理。

发展:智能制造的实施,不仅大幅提高了生产效率和产品良率,还降低了人力成本和运营风险。HCH Co公司因此能够在更短的时间内响应市场需求变化,推出更多符合消费者需求的高品质电子产品。同时,公司还通过智能制造的实践经验,为行业内的其他企业提供了可借鉴的转型路径。

Alpha & Omega Semiconductor(万国半导体)公司的发展小趣事

背景:HCH Co公司自成立以来,始终将技术创新作为企业发展的核心驱动力。在电子行业快速发展的背景下,公司投入大量资源于研发领域,成功研发出一系列具有自主知识产权的核心技术。其中,一项关于高效能电源管理芯片的突破,不仅大幅提升了电子产品的续航能力,还显著降低了能耗,赢得了市场的广泛认可。

发展:随着技术的不断成熟和市场需求的增长,HCH Co公司的电源管理芯片迅速占领市场份额,成为众多知名电子产品制造商的首选供应商。公司的技术创新不仅推动了自身业务的快速增长,也为整个电子行业的节能减排和可持续发展做出了积极贡献。

Bytes公司的发展小趣事

在技术创新的基础上,Bytes公司积极拓展市场。公司通过精准的市场定位和营销策略,成功打开了多个国家和地区的市场。同时,Bytes公司注重品牌建设,通过优质的产品和服务赢得了消费者的信任和好评。公司还积极参与国际展览和交流活动,提升品牌知名度和影响力。

Evans Capacitor Company公司的发展小趣事

在国内市场取得成功后,ECC开始将目光投向国际市场。公司积极参加国际展会,与海外客户建立联系。同时,ECC还在海外设立了研发中心和生产基地,以便更好地了解当地市场需求并提供定制化服务。通过不懈的努力,ECC的产品成功打入国际市场,实现了全球化布局。

问答坊 | AI 解惑

喷气式甲克虫汽车

喷气式战斗机看到过,可经过改装的喷气式甲克虫汽车必定没看到过吧,看着这样的车必定有飞的感到。想看看发动引擎后的效果?请看下面的图片…

查看全部问答>

有没有开发过【软plc】的朋友

有没有开发过【软plc】的朋友 麻烦留下联系方式,谢谢~…

查看全部问答>

请教怎样实现路径选择界面

E:\\mobile.bmp 如图,请教高手怎么实现这样的文件打开时的路径选择界面, 最上面一行显示当前路径, 下面可以点选,进入或返回上一级路径, 多谢高手指教。 …

查看全部问答>

有个问题,能帮我解决的现金酬谢

有哪位兄台知道如果利用AT命令控制短信猫设备拨打USSD号码:如:*111*222×NNN#这样的号码。 如果有成功实现过的请和我联系。QQ:61238333.如果能帮我解决问题。现金200元酬谢。…

查看全部问答>

如何在窗口最下面那条(输入法旁边)上添加按钮?

Wince对话框程序 需要在最下面的蓝色条上添加个按钮 我加了ToolBar却显示在了窗口里面 高手快来啊 …

查看全部问答>

真的没人用upsd了吗

                                  …

查看全部问答>

基于单片机的音乐喷泉设计

求一个基于单片机的音乐喷泉设计程序,如果有硬件设计就更好了。 这个头一次做,根本不知道咋下手,菜鸟一名,大大们先帮帮忙吧~谢谢…

查看全部问答>

TI的M3/M4能用作工业控制用么

请问TI的M3/M4能用作工业控制用么?…

查看全部问答>

SimpliciTI-IAR-1.2.0>>CC430EM里的程序为何不能用了????

我用SimpliciTI-IAR-1.2.0里的cc430例程,用cc430F5137模块来测试程序AP_as_Data_Hub,为何AP和ED连接不上了,我的ED发送地址是0xFF,为何发不出去了???望各位老师能够解答我的难题 !在此谢过!…

查看全部问答>