历史上的今天
返回首页

历史上的今天

今天是:2024年08月25日(星期日)

正在发生

2021年08月25日 | 特斯拉Dojo芯片深度揭秘

2021-08-25 来源: 佐思产研

特斯拉在AI Day推出Dojo深度学习训练用芯片,更准确地说应该是Dojo深度学习训练系统,让特斯拉粉丝兴奋不已,马斯克大神地位进一步加强。不过大部分人冷眼旁观,特斯拉在第二天的股票市场上弱于大势,微涨1.01%,而第二天的纳斯达克指数涨幅为1.19%,特斯拉粉丝认为应该被拉下神坛的英伟达却大涨5.14%,报208.16,创上市以来最高值,至少投资界没人看好特斯拉的训练芯片。

 

特斯拉Dojo深度学习训练用首秀,实际应该是台积电InFO_SoW (System-on-Wafer)首秀,台积电于2020年6月底在IEEE上发表论文https://ieeexplore.ieee.org/document/9159219,特斯拉是第二个使用此设计方案的人,第一个是Cerebras,不过Cerebras的产品9月份才会正式推出,所以特斯拉算首秀。

 

 

图片来源:互联网

 

目前最强的训练用处理器是英伟达的A100。性能如下表。

 

图片来源:互联网

 

特斯拉Dojo性能如下

 

图片来源:互联网

 

TF32是Tensor Float 32的缩写,在深度学习中,其实我们对浮点数的表示范围比较看重,而有效数字不是那么重要。在这个前提下,TF直接就把 FP32 中 23 个分数值截短为 10 bits,而指数位仍为 8 bits,总长度为 19 (=1 + 8 +10) bits。借助 NVIDIA 开发的深度学习库,用户可以无感地使用 TF32 而无需任何额外的操作。底层库会自动地将 FP32 转换为 TF32 进行计算,并将结果再转换为 FP32。

 

Brain Float 16 格式是 Google 在 TensorFlow 中引入的新数据类型,其可以认为是直接将 FP32 的前16位截取获得的。至于设计思路和上面的 TF32 是一样的,都是深度学习对表示范围敏感而对精度不敏感。但是 Google 更加暴力,直接将分数值砍到只剩下 7 bits。

 

训练领域对精度要求更高,因此FP64必不可少,特别在医疗(模拟心脏)和气象领域(预测大西洋飓风)以及航天领域,汽车领域主要是图像识别精度要求不高,FP32足够,甚至近期有人提出FP8就够了。FP64精度下的性能参数,特斯拉很聪明地不提供,也可能特斯拉的Dojo就不支持FP64精度。英伟达A100是专业训练芯片,提供最全的精度模式,包括FP32和TF32。局部性能弱于特斯拉Dojo,但差距很小,在最常用的BF16精度下,英伟达是比特斯拉强很多的。通常认为推理的精度至少要INT8,而特斯拉觉得训练精度CFP8就够了。英伟达显然不会支持CFP8。

 

A100有542亿个晶体管,特斯拉Dojo是500亿个,英伟达A100裸晶面积是826平方毫米,特斯拉是645平方毫米,两者都是7纳米,不过英伟达A100要比特斯拉早上1年多,加上英伟达的GPU安培架构在晶体管密度上天生弱势(多说几句,特斯拉晶圆利用效率最高的是2017年的Volta架构有95%,安培架构只有88%,2012年的开普勒和2016年的帕斯卡都有93%),因此,特斯拉明显占优,这也意味着特斯拉的成本更低。不过功耗方面,英伟达明显占优,PCIe版只有250瓦。

 

图片来源:互联网

 

实际这是台积电左右互搏,英伟达使用的是Flip-Chip MCM技术,AMD的CPU也是如此,英伟达自己叫Multi-Instance GPU (MIG) ,A100是最多允许7个,也就是8个芯片级联。特斯拉是InFO_SoW (System-on-Wafer)。InFO_SoW具备压倒性优势,理论性能是Flip-Chip MCM两倍以上。且级联数量可达几十乃至上百个,台积电原型达到49个,特斯拉的Dojo是25个。台积电的核心优势不是3纳米或2纳米的先进工艺,而是芯片的3D系统级封装,单凭这一项,足以秒杀三星,即便三星量产0.5纳米,没有先进封装的帮助,所有高性能芯片还是95%在台积电下单。

 

对AI来说,存储器对指令和数据的搬运(写入和读出)的时间是运算单元运算所消耗时间的几十倍乃至几百倍。换句话说,很多AI芯片所描述的实际算力会因为存储器的因素降低50%甚至90%。即内存墙问题。提高AI处理器最有效的方法是减小运算单元与存储器之间的物理距离。这也是这15年来高性能芯片封装技术发展的主要目标,这不仅可以提高算力,还能降低功耗减少发热。

 

众所周知,处理器跟内存之间的距离越短,则处理器的运算延迟越低。而这也是当代的高效能处理器普遍内建三级缓存的原因--缓存的容量越大,则处理器需要从内存搬移数据的机率越低,整个系统的效能与功耗也能因而获得明显改善。 图上的线宽5微米是RDL(再分布层) 1-3层情况下的结果,如果RDL4-6层,线宽会增加到15/20微米。

 

图片来源:互联网

 

特斯拉Dojo核心层,特斯拉为更好系统整合,没有采用正圆形,而是做了一点修改,类似于八边形。

 

图片来源:互联网

 

SoW是整体冷盘,不像以前的方案,只有一条线,散热效率大大提升,此外也可以用水冷散热。

 

SoW通过了服务器领域温度测试标准。图片来源:互联网

 

图片来源:互联网

 

优点多多,成本和良率也很好,可以使用成熟的InFO工艺,KGD芯片。

 

图片来源:互联网

 

不加任何散热的情况,12英寸晶圆大小最高支持到7千瓦,特斯拉外加散热器,提高到了15000瓦。

 

图片来源:互联网

 

英伟达的A100,使用2代HBM内存,存储带宽只有1.6TB/s。特斯拉则大手笔不计成本,全部采用片上SRAM,带宽达到惊人的4TB/s。 特斯拉的垂直模式也比业界常用的平面模式要强很多,功率密度大大提升。 说回芯片本身的设计,特斯拉和Cerebras如出一辙,Cerebras比特斯拉还要疯狂,CerebrasWSE2单芯片有2.6万亿晶体管,是特斯拉的50倍,芯片面积达46225平方毫米,拥有85万内核,这么大芯片的良率会非常低,估计不到10%,估计单芯片就要50万美元甚至100万美元以上。当然芯片也是台积电制造的,利润的大部分都归台积电。

 

图片来源:互联网

 

Cerebras的稀疏矩阵数据流,汽车图像识别中很大一步矩阵值都是零,大面积的空洞即天空,因此属于标准的稀疏矩阵,而医疗、气象领域则多稠密矩阵。算力方面特斯拉300个D1芯片,即12个Dojo单元算力是108PFlops,每个单元是9PFlops,功率是180千瓦,每瓦PFlops算力是0.6。Cerebras是每个单元(即CS-1服务器)含15个WSE2,算力是23PFlops,功率20千瓦(CS-1是水冷设计),每瓦PFlops算力是1.15。不过价格Cerebras可能是特斯拉的10倍甚至更多。

 

图片来源:互联网

 

特斯拉的训练节点矩阵架构,跟Cerebras很近似。

 

特斯拉的垂直运算系统非常新颖,算是亮点。核心技术还是台积电掌握,芯片设计本身平淡无奇,没有什么亮点。


推荐阅读

史海拾趣

Bals Elektrotechnik GmbH & Co KG公司的发展小趣事

随着公司业务的不断扩展,Bals Elektrotechnik开始寻求国际化的发展道路。1990年代,公司决定在中国昆山设立工厂,以便更好地服务亚洲市场。这一决策不仅提高了公司的生产效率和市场竞争力,也为其在全球范围内的业务拓展提供了有力支持。

HANBIT Electronics公司的发展小趣事

1958年,Bals Elektrotechnik公司迎来了一个重大突破——连接器开始批量生产。随着技术的不断进步,公司逐渐将材料从铝转向塑料,这不仅降低了生产成本,还提高了产品的性能和可靠性。这一创新举措使得Bals在电气连接器市场上占据了重要地位,为后续的发展奠定了坚实基础。

DEMMELPRODUCTS公司的发展小趣事

作为一家有远见的企业,DEMMELPRODUCTS公司始终关注环保和社会责任。公司积极推广绿色生产理念和技术,减少生产过程中的废弃物排放和能源消耗。同时,公司还积极参与社会公益活动,为社会做出了积极的贡献。这些举措不仅提升了公司的社会形象,也为公司的长远发展奠定了坚实的基础。

友盟(AP)公司的发展小趣事

在追求商业成功的同时,友盟(AP)公司也积极履行社会责任,致力于可持续发展。公司关注环境保护、公益事业等方面的问题,积极参与相关活动和项目。同时,友盟还通过技术创新和产品优化,推动电子行业的绿色发展和数字化转型。这些努力不仅提升了公司的社会形象,也为其未来的发展注入了新的动力。

以上是关于电子行业里友盟(AP)公司发展起来的5个相关故事。这些故事从不同角度展现了友盟在技术创新、合作伙伴关系、市场拓展、人才团队建设以及社会责任等方面的努力和成就。当然,每个公司的发展都是一个复杂而多元的过程,这些故事只是其中的一部分。

台湾町洋(dinkle)公司的发展小趣事

随着电子行业的快速发展,町洋不断投入研发资源,致力于技术创新和产品升级。公司成功开发出了一系列具有高性能、高可靠性和高安全性的接线端子产品,满足了不同客户的需求。同时,町洋还积极引进国际先进技术和管理经验,不断提升自身的竞争力和市场占有率。

Honeywell公司的发展小趣事

背景:进入20世纪后,霍尼韦尔在恒温器领域的技术不断成熟,同时,另一家名为霍尼韦尔供暖专业公司的企业也在加热器领域取得了显著成就。

发展:1927年,明尼阿波利斯热调节器公司与霍尼韦尔供暖专业公司合并,创立了明尼阿波利斯-霍尼韦尔调节器公司。这次合并不仅增强了公司的技术实力,还拓展了业务范围,使公司成为当时最大的高品质珠宝钟表生产商(尽管这与电子行业的直接关联较小,但反映了公司扩张的雄心)。

关键事件:合并后,公司继续深耕工业自动化领域,并收购了布朗仪器公司,进一步巩固了在全球工业控制器和指示器市场的领导地位。

问答坊 | AI 解惑

MCS-51单片机实用子程序库

MCS-51单片机实用子程序库 目前已有若干版本的子程序库公开发表,它们各有特色。本程序库中的开平方算法为快速逼近算法,它能达到牛顿迭代法同样的精度,而速度加快二十倍左右,超过双字节定点除法的速度。 本子程序库对《单片机应用程序设计技 ...…

查看全部问答>

多级逻辑时钟

当产生门控时钟的组合逻辑超过一级(即超过单个的“与”门或“或”门)时,证设计项目的可靠性变得很困难。即使样机或仿真结果没有显示出静态险象,但实际上仍然可能存在着危险。通常,我们不应该用多级组合逻辑去钟控PLD设计中的触发器。 图7 给出 ...…

查看全部问答>

EK-LM3S8962评估套件原价99美元,现价48元,抢啊

EK-LM3S8962评估套件     哈哈,好便宜啊,大家可以抢了:   为了感谢您的参与,TI特别推出限量500套的惊爆特价LM3S8962开发工具(原价99美元),现仅售人民币68元!如果您在7月31日之前下单付款,更可享受人民币48元的超低 ...…

查看全部问答>

ARM9 和WAVECOM

我用的是MINI2440学习板,现讲wavecom模块和ARM用串口连一起来,在arm的串口助手上发AT指令没有反应,但是将ARM换成PC机就可以了,用PC连ARM测试串口也是正常的。不知道为什么??ARM为wince5.0系统…

查看全部问答>

WINCE串口通信为什么为串包

我用一个串口类接收一个下位机硬件通过串口发来的数据,总是会出现两个包串在一起的情况(不是很多,但经常会有)请问这是为什么。我的串口类如下。 打开及串口设置: BOOL CCESeries::OpenPort(CWnd* pPortOwner,        &n ...…

查看全部问答>

网络编程高手请进,help me?

最近我在编写一款网络芯片驱动时遇到一些不解,有以下问题想向高手请教: 1,在一般的网卡插上网线时,如果连接正常,指示灯会亮。那么到底是因为插上网线这个硬件,指示灯就亮了呢? 还是要软件检测到通信正常才亮? 2,如果我只要实现UDP包通 ...…

查看全部问答>

485通信 430可以给PC发数,但PC给430发总调不通,帮忙看看

这是1611 485 发送的程序,但是下边的接收程序在接受缓冲器总读不到数呢? #include <msp430x16x.h> void Set_UART0(void); void Set_UART0(void) { P3SEL |= 0x30; // P3.4,5选择为UA ...…

查看全部问答>

好好学习了两天,通过了!晒图!!谢谢坛里组织这次活动的各位朋友!!

小晒一下图!通过了!再努力一下,弄个满分!! 感觉EEWORLD越来越给力了!!各位辛苦了!! [ 本帖最后由 wuyanyanke 于 2012-10-7 00:30 编辑 ]…

查看全部问答>

如何配置阻抗跟踪电量计

Jared为您介绍如何使用Gauge Studio软件轻松配置一个阻抗跟踪电量计。 $(\'flv_SpR\').innerHTML=(AC_FL_RunContent(\'width\', \'500\', \'height\', \'375\', \'allowNetworking\', \'internal\', \'allowScriptAccess\', \'never\', \'src\', ...…

查看全部问答>