历史上的今天
返回首页

历史上的今天

今天是:2024年08月22日(星期四)

正在发生

2019年08月22日 | 有史以来最大芯片亮相Hot Chips

2019-08-22 来源:半导体行业观察

日前,在斯坦福大学举行的IEEE Hot Chips研讨会上,创业公司Cerebras推出了有史以来最大的芯片。按照他们的说法,这个大致是硅晶片尺寸的系统旨在将AI训练时间从几个月缩短到几分钟。


这是自二十世纪八十年代Trilogy Systems任务失败以来,业界再一次出现对晶圆级处理器的商业尝试。


下面,我们来谈一下有关这个芯片,你必须知道的六点::


数据


作为有史以来最大的芯片,Cerebras的Wafer Scale Engine(WSE)自然带有一堆最高级的。这是当中的一部分:


尺寸:46,225平方毫米。这大约是一张信纸大小的纸张的75%,但却是最大GPU的56倍。


晶体管:1.2万亿。Nvidia的GV100 Volta仅为21亿。


处理器核心:400,000。而GV100只有5,660。


内存:18千兆字节的片上SRAM,大约是GV100的3000倍。


内存带宽:每秒9 PB。据Cerebras称,这是我们最喜欢的GPU的10,000倍。


你为什么需要这个怪物?


Cerebras在其白皮书中提出了一个非常好的案例,为什么这么大的芯片有意义。


基本上,该公司认为,训练深度学习系统和其他人工智能系统的需求已经失控。该公司表示,训练将出现一种新模式——创建一个这样的系统,那就是一旦经过训练,就可以识别人或赢得Go游戏。但这在过去需要花费数周或数月的时间,并耗费数十万美元的计算时间。这个成本意味着实验的空间很小,这会扼杀新的想法和创新。


这家公司的答案是,全世界需要更多,更便宜的训练计算资源。而训练也需要几分钟而不是几个月,为此,您需要更多内核,更多靠近这些内核的内存,以及内核之间的低延迟,高带宽连接。


这些目标将对AI行业中的每个人造成影响。但是Cerebras也承认,这个想法推向了它的逻辑极端。一块大芯片为处理器内核和需要依赖它的内存提供了更多的硅片面积。只有当数据永远不必离开芯片上的短而密集的互连时,才能实现高带宽,低延迟的连接。因此这也是他们打造这样一个大芯片的原因。


在这400,000个内核中有什么?


根据该公司的说法,WSE的内核专门用于人工智能,但仍然具有可编程性,那就意味着该芯片并不会仅仅被限定在AI当中。这就是他们所谓的稀疏线性代数(Sparse Linear Algebra:SLA)核心。这些处理单元专门用于“人工智能”工作的“张量”操作,但它们还包括一项减少工作的功能,特别是对于深度学习网络。据该公司称,深度学习训练集中所有数据的50%至98%为zero。因此,非零数据“Sparse ”。


SLA核心通过简单地不将任何东西乘以零来减少工作量。内核具有内置的数据流元素,可以根据数据触发计算操作,因此当数据遇到零时,不会浪费时间。


他们是怎么做到的?


Cerebras庞大的单芯片背后的基本理念已经存在了几十年,但它也是不切实际的。


早在20世纪80年代,并行计算的先驱  Gene Amdahl就制定了加速大型机计算的计划——硅片大小的处理器。换句话说,就是将大部分数据保留在处理器本身而不是将其通过电路板推送到存储器和其他芯片。这样的计算将更快且更节能。


借助从风险投资家手上拿到的2.3亿美金,Amdahl创立了Trilogy Systems,并实现了他的愿望。但我们不得不承认,“晶圆级整合”的第一次商业尝试是一场灾难,据当时报道,它成功地将动词“to crater”引入金融新闻词典。


最基本的问题是芯片越大,良率越差。从逻辑上讲,这应该意味着晶圆级芯片将无利可图,因为您的产品总会存在缺陷。Cerebras的解决方案是添加一定量的冗余。据EE Times称,Swarm通信网络具有冗余链路,让产品工作时可以绕过受损核心。据透露,当中大约有1%的核心是备用的。


Cerebras还必须解决一些关键的制造限制问题。例如,芯片工具设计用于将其特征定义图案投射到相对较小的矩形上,并在晶圆上完美地反复进行。由于在晶片上的不同位置铸造不同图案的成本和难度,仅此一点就会使许多系统不能构建在单个晶片上。


但WSE就像一个典型的晶圆,完全由相同的芯片组成,就像你通常制造的一样。最大的不同之处在于他们与台积电合作开发了一种方法,用于在芯片之间的空间建立连接,这个区域称为scribe lines。而这个空间通常留空,因为芯片沿着那些线切割。


根据Tech Crunch的说法,Cerebras还必须发明一种方法,为芯片提供15千瓦的电源和冷却系统,并创造新的连接器,以便在加热时处理它扩展的方式。


这是制作晶圆级计算机的唯一方法吗?


当然不是。例如,加利福尼亚大学洛杉矶分校和 Illinois Urbana-Champaign的团队正在研究一种类似的系统,该系统也构建了裸处理器并进行了测试,并将它们安装在已经图案化所需的密集互连网络的硅片上。这种称为硅互连结构的概念允许这些小芯片紧密相连(相隔100微米),这就使得芯片间通信接近单个芯片的特性。


“这是我们一直在进行验证的研究”,伊利诺伊大学的  Rakesh Kumar说。


Kumar认为硅互连结构方法与Cerebras的单片晶圆级方案相比具有一些优势。首先,它允许设计师混合和匹配技术,并为每个技术使用最佳制造工艺。单片方法意味着为最关键的子系统逻辑选择最佳的制程,并将其用于存储器和其他原件,即使不适合它们。


Kumar建议,在这种方法中,Cerebras可以限制它可以放在处理器上的内存量。“他们在晶圆上有18千兆位的SRAM。也许这对今天的某些型号来说已经足够了,但明天和后天的型号呢?“


什么时候出来?


据“财富”杂志报道,Cerebras9月份将会向客户发货首批系统。据EE Times称,部分系统已经收到原型。该公司计划在11月的超级计算大会上公布完整系统的结果。


推荐阅读

史海拾趣

ABL Aluminum Components公司的发展小趣事

随着业务规模的不断扩大,ABL公司开始面临供应链管理的挑战。为了应对这一挑战,公司引入了先进的供应链管理系统,实现了从原材料采购、生产制造到产品销售的全程监控。同时,ABL公司还与供应商建立了长期稳定的合作关系,确保了原材料的稳定供应和成本控制。通过优化供应链管理,ABL公司提高了生产效率和市场响应速度,进一步巩固了市场地位。

Gennum ( Semtech )公司的发展小趣事
在连接元件时,避免导线裸露部分相互接触或接触到金属物体,以防止短路。
FlexiPanel公司的发展小趣事

在追求经济效益的同时,FlexiPanel也高度重视企业的社会责任和环保问题。公司积极响应国家节能减排政策,致力于推广绿色制造和可持续发展理念。在产品设计、生产、包装等各个环节中,FlexiPanel都采取了环保措施,减少了对环境的影响。此外,公司还积极参与公益事业和社会活动,为社会和谐发展贡献了自己的力量。

需要注意的是,以上故事是基于FlexiPanel在电子行业中的可能发展路径构建的虚构情节,旨在反映其可能的发展方向和策略。由于具体信息可能因企业实际情况和市场环境变化而有所不同,因此以上内容仅供参考。

承兴(CX)公司的发展小趣事

1996年,承兴公司在香港成立,并迅速设立了亚洲总部。起初,公司专注于电子产品的代理和销售,凭借其敏锐的市场洞察力和高效的供应链管理能力,承兴逐渐在亚洲市场崭露头角。通过与宝洁中国、百事中国等知名品牌建立合作关系,承兴获得了稳定的供应链资源和市场份额。

Ava Electronics Corp公司的发展小趣事

随着市场的不断发展,AVA电子意识到只有不断创新才能在竞争中保持领先。于是,公司加大了在研发方面的投入,引进了一批高素质的研发人才,并与多所高校和研究机构建立了合作关系。经过数年的努力,AVA电子成功研发出了一系列具有自主知识产权的电子产品,这些产品在性能、稳定性和用户体验等方面都达到了行业领先水平。这些创新产品的推出,不仅提升了公司的市场地位,也为公司带来了可观的利润。

Arco Electronics公司的发展小趣事

随着公司规模的扩大,Arco Electronics开始实施全球化战略。公司先后在多个国家和地区设立了研发中心和生产基地,以便更好地服务当地市场。通过全球化的布局,Arco不仅降低了生产成本,还提高了产品的竞争力。同时,公司还积极与当地的合作伙伴建立战略合作关系,共同开拓市场,实现了互利共赢。

问答坊 | AI 解惑

哪位好心人帮帮我发一个keil软件给我

我的keil 老是出错, 比如: void main(void) { unsigned int w; w=10; } 程序执行到‘}’结束符就出错。 ***   error   65:   access   violation   at   C:0x0A00  &nb ...…

查看全部问答>

pxa310开发板

Marvell? PXA310?开发板简要介绍 产品图片 Product Photo PXA310 简介 PXA310 处理器专门为手持设备、GPS 定位系统、无线手持和其他消费类电子设备而设计。基于第三代Intel XScale 技术的这一Marvell PXA3XX 应用处理器系列产品(内部称为Mon ...…

查看全部问答>

渥瑞达“3G移动开发”免费试听课于北京交通大学举行,欢迎大家光临!

渥瑞达“3G移动开发”免费试听课于北京交通大学举行,欢迎大家光临! 渥瑞达“3G移动开发”免费试听课于北京交通大学举行,欢迎大家光临! 详情请参见 www.neworigin.net 同时欢迎大家与我们的609期学员交流!这期学员已与2月11日毕业 ...…

查看全部问答>

请教STM32的MCO输出给5V器件CLKIN的方案?

打算用MAX7456,需要个27M的晶振。想把晶振省掉,用STM32的MCO来输出给它。 该CLKIN输入datasheet如下,VDVCC是5V供电。 下载 (31.48 KB) 2011-1-28 09:37 打算STM32用9M的晶振,PLL用6倍频到主时钟54M,然后MCO用PLL ...…

查看全部问答>

能提供CCS for c6000 v2.2补丁程序下载?

CCS for c6000 v2.2补丁程序下载 地址  能提供么…

查看全部问答>

我用一个数组输出一个三角波,为何输出的是这样的啊

我用一个数组输出一个三角波,为何输出的是这样的啊  不是三角波,而是一下一下的向上跳动?…

查看全部问答>

STM32虚拟串口驱动如何一次发送261个数据给上位机?

我设备的需求是:将网卡接收到的一帧数据(一帧包括261个数据,每个数据都是一个十六进制如0xc2),通过USB发送到上位机。      我将STM32的USB虚拟串口驱动(V3.1版)按照我的要求进行修改并实现了该功能,起初我USB虚拟串口 ...…

查看全部问答>

基于RL78G14的双轮自平衡小车进度贴--体验心得

感觉特别不习惯瑞萨的编译器,比起keil iar 感觉差了不止一大截,可能习惯问题吧。 然后就是他那个芯片手册,引脚介绍的非常详细,功能、寄存器介绍方面我感觉还是有些不足的,看了半天不知道配置,可能是没有demo的原因,后来从这里http://am.ren ...…

查看全部问答>

ucos-ii的移植代码分析

移植的代码中,在时钟SysTick_Handler中OSIntExit()进行任务切换; 其中OSIntExit()的代码为: void  OSIntExit (void) { #if OS_CRITICAL_METHOD == 3                 ...…

查看全部问答>