历史上的今天
返回首页

历史上的今天

今天是:2024年08月29日(星期四)

正在发生

2019年08月29日 | 英特尔全新芯片赋能AI训练性能

2019-08-29 来源:EEWORLD

翻译自——nextplatform,Nicole Hemsoth

 

Carey Kloss在过去几年密切参与了人工智能硬件的崛起,其中最引人注目的是他构建了第一台Nervana计算引擎。英特尔(Intel)利用这台引擎将其开发成两种独立的产品:一种用于训练,另一种用于推理。

 

他告诉nextplatform,真正的诀窍是跟上具有平衡架构的培训模型的规模和复杂性不断增长的步伐。考虑到培训所需的计算几乎每季度翻一番,从性能、效率和可伸缩性的角度来看,这比以往任何时候都更重要。

 

 

Kloss和英特尔认为,他们终于用Spring Crest深度学习加速器(或者更简单地说,英特尔Nervana NNP-T)找到了平衡的法则。这个名字可能不像“Volta”这样富有诗意,但我们从它目前的状态来看,它很有竞争力,并且在性能/效率和数据移动潜力方面填补了一些空白。

 

英特尔/Nervana的硬件团队已经采取了一种切实可行的方法,与一些超大规模的公司合作构建一种平衡的芯片,考虑到Facebook是其中的佼佼者,这家社交巨头计划让英伟达的GPU在培训方面拥有更强的竞争力,假设这是一个推论。在我们今年5月举行的下一次人工智能平台活动上,Facebook基础设施主管Vijay Rao指出,他们期待着尝试任何能够在培训和推理方面具备规模优势的架构。

 

最后,在Hot Chips上,我们看到了更多的关于这个架构的信息,包括一些关于自定义网络Kloss的深入了解,Kloss在收购前帮助最初的Nervana计算引擎构建了这个网络。这个架构给我们留下深刻印象的是,它是为可伸缩性而设计的。虽然确实可以对GPU进行伸缩,但对于大型培训集群来说,按比例移动数据一直是一个棘手的问题。

 

Nervana/Intel的优势在于,就是从最开始设计培训架构时就只考虑到工作量,尤其是在大多数培训模式不再适合最大芯片的情况下。这意味着专注于向外扩展是有道理的,除了强大的数学单元之外,还需要一些创造性的内存、SerDes和其他HBM技巧。

 

对于几乎所有的模型,大多数时间都花在乘法/累加(矩阵数学或卷积)上,这意味着需要大量的计算(GPU擅长的东西),但是大量的读取意味着可以反复使用一块数据,理想情况下从HBM读取一次并使用并行乘法器多次。这是一个很标准的思考训练问题的方法。Kloss说,当他们深入研究工作负载时,乘数、SRAM和最快的HBM是关键,但是平衡起来要困难得多。“需要有足够的SRAM来满足乘数、足够的高速SerDes芯片和HBM,每个都有相同的限制,给定相同的HBM规格。因此,这就是平衡内存、启动内存和关闭内存、网络和计算的诀窍。”

 

这个平面图,显示了4 HBM2和64通道SerDes与中心计算(24张量处理器/TPCs)、SRAM、PCIe Gen 4 x 16EP和控制块之间的平衡。芯片上共有60mb的分布式内存,全部采用2.5D封装。

 

其中一个很酷的功能,也是大多数地方都没有注意到的创新,是基于台积电晶圆片上基板(CoWoS)技术。这是一个相当大的die,但考虑到人工智能的工作负载,尺寸为680mm。但是,这与中介层(interposer)没有逻辑关系,它是被动的,在给定设计目标的情况下,这是一个明智的权衡。

 

下面是我们对TPC[1]的一个真实理解。我们的设计目标是尽可能减少模具面积,包括控制路径逻辑,以及OCP/OAM规格尺寸是固定的。“我们不想把模具区浪费在我们不需要的东西上,”Kloss解释说。我们的指令集很简单;矩阵乘法,线性代数,卷积。我们没有寄存器,一切都是2D、3D或4D的张量。软件中定义了很多东西,包括在打开或关闭die模型时编写相同程序的能力。你可以把它想象成一个等级层次;可以使用相同的指令集在一个组中的两个集群之间移动数据,或者在组之间移动数据,甚至在网络中的晶圆。最终的目的是我们想让软件管理通信变得更简单。”

 

 

这将消耗150-200瓦的电量,但这是一个基于ResNet 50部分的推测结果,正如我们所知,这在现实世界中并不具有代表性。我们要到明年才能看到英特尔MLperf的结果,但是Kloss说到那时他们会有几个基准测试,包括自然语言处理和其他工作负载。

 

 

红色块是复合数学管道,在这里,矩阵乘法的前运算和后运算可以用乘数数组中的部分乘积来完成,而不需要另一个内存端口来将部分乘积输入红色区域。这样就可以在任何周期上获得输出(预激活和后激活),并且它与保存在张量中的两个输出张量完全管道化。

 

到目前为止,我们所看到的一切都回避了一个重要的问题。除了在硅上的一些明显差异外,它的数学单元与Nvidia Volta GPU或TPU 3的张量有什么不同呢?毕竟,乘数不就是乘数吗?

 

答案可能比看上去要微妙一些。这涉及到权衡取舍、die area和数据移动。

 

“像这样的乘法器阵列或其他竞争对手,你可以用乘法器得到更密集的数据。一旦你有了密集的乘法器阵列,你就可以用更少的模具面积来做这些乘法器,你可以用你的模具面积来做更多的信息分配或其他事情,”Kloss说。下一个决定是量化(矩阵本身的量化相乘,而不是权重或数据)。英特尔选择32×32,是因为当他们观察通过神经网络运行的尺寸时,它似乎不那么浪费,尤其是在边界条件下。

 

“如果你想在一个32×32的数组上做一个33×33的乘法,你将会浪费大量的时间在无意义的乘法上,”Kloss解释道。“所以,如果你有一个更大的乘法器阵列(如TPU中的128×128或256×256),它会通过巨大的矩阵乘法进行运算,但每次遇到边界条件,它就会浪费一些乘数——它们不会被使用。”他的团队分析了更大的死区权衡 (64 64×128×128)但因为有特定数量的TPC和定义内存,使得他们无法得到另一个行或列的TPC面积密度的储蓄。

 

“节省下来的钱不足以让我们再建一排或一列,而且我们受到模具尺寸的限制——这是回到了Lake Crest第一代神经网络。供应商能构建的量是我们的上限。所以32×32的消元过程是正确的权衡。今天来看,这似乎是一个很好的权衡,一方面不浪费很多乘法器,另一方面拥有足够密集的乘法器阵列。

 

请记住,在开始使用TPU时,谷歌团队严格使用256×256,但是在第二个版本中,随着工作负载的变化和更多实际模式的出现,谷歌团队减少到128×128。每个芯片上有两个这样的数组v2和v3,每个芯片上有四个这样的数组。另一边的Volta GPU采用了不同的路径,使用4x4x4矩阵(3D而不是2D)。在这一点上进行比较仍然困难,这意味着2020年MLperf的培训结果将更加有趣。

 

为了在更小的进程节点上获得类似的性能,而SRAM要少得多,它们就必须有更大的die区域。我们可以增加更多的SRAM和更快的网络,因为我们正在用一个更简单的指令集。在这一点上,更有效地利用模具面积将提供直接的动力和性能效益。”

 

顺便提一下,关于英特尔如何谈论事物的一个快速澄清点:一切都是一个张量。他们不讨论权重,那些只是被认为是另一个“张量”,但是,正如Kloss解释的那样,“我们确实在SRAM中保留了权重,如果它们足够小的话。”我们可以完全控制软件。如果足够小,它们可以存储在本地内存中,但是如果它们更大,我们可以将它们从HBM双缓存到蓝色区域,然后再返回。乘法器阵列只需要从内存库中获取任何权重或非权重的数据,然后读入、乘法器阵列,然后再把它们吐出来。”

 

我们期望Nervana和Intel能够提供一些定制的功能,其中包括一个复杂的微控制器,它允许定制指令处理工作,而不会使宝贵的模具区域复杂化。可以从HBM中提取几个子例程来运行集群上的任何东西,生成驱动SRAM和乘数的底层指令。这对于像ROI这样的事情很方便。在这种情况下,不需要特殊的逻辑,只需要一个子例程就可以创建一条新的指令。这也有助于许多批次的动态形状和大小的可用性。

 

NNP-T同时存在于PCIe和夹层因子中。“我们喜欢OAM规范;因为它更容易冷却和逃离这么多高速SerDes的载体,”Kloss说到。

 

“你可以看到PCIe卡和两个白色的连接器,然后是芯片背面的四个QQSFP连接器:我们必须做所有这些来避开PCIe卡上的所有SerDes,但是对于夹层卡,它都在那里,可以安装在任何OCP或OAM夹层底盘上。这将打开一个完全连接的载波卡或混合网格立方体载波卡的组合(我们更喜欢这样做,因为这意味着在机箱内部少了一个链接)。他说,英特尔不只是想在一个机箱中扩展这些,而是从一个机箱到另一个机箱,从一个机箱到另一个机箱,因此更多的SerDes从机箱的后部出来是很重要的。此外,我们的专有链接速度非常快,延迟也很低,所以在机箱外添加额外的跳转不会影响性能。在其他人可能更喜欢完全连接的地方,我们认为最好让更多的SerDes从盒子里出来,使用混合网格立方体。”

 

延伸阅读

 

一款基准测量工具的雏形——MLPerf

 

由各大领先的科技公司和大学组成的团队发布了一款基准测量工具的雏形——MLPerf,其目的是测量各种AI框架和芯片中不同机器学习任务的训练速度和推理时间。

 

 

MLPerf的诞生是小部分公司自我组织进行产品对比的结果。在很长一段时间内,人们都在讨论是否有必要设立一个有意义的AI基准。支持者认为,标准的缺失限制了AI的应用。

 

MLPerf声明它的基础目标是:

 

  •  用公平、有帮助的测量方法加速机器学习的发展

  •  对各竞争系统进行公平对比,以鼓励机器学习的发展

  • 保证让所有人都能参与基准评比

  •   既服务于商业群体,也服务于研究领域

  •   基准要可复制,确保结果的可靠

 

英特尔收购Nervana后的第一张王牌Lake Crest,号称比GPU速度快10倍,年底测试 

 

人工智能硬件平台争夺的序幕才刚刚拉开。随着时间的推移,人们很快发现相比GPU和CPU,FPGA具有的低能耗、高性能以及可编程等特性,十分适合感知计算,而且可以做到快速部署。2015年,英特尔便动用167亿美元收购了当时全球第二大FPGA厂商Altera,也是有史以来最大的一笔收购案。

 

也是在那一年,凭借拥有号称最快的深度学习框架 neon和首个结合机器智能软硬件云服务的Nervana Cloud,深度学习初创公司 Nervana 被 VentureBeat 评为值得关注的五家深度学习初创公司,次年8月,暗中观察许久的英特尔豪掷4亿美元将仅有48名员工的Nervana收入了囊中。

 

 

在整合了 Nervana 的技术之后,英特尔AIPG 计划推出 Crest 家族系列产品线。首先亮相的是一款叫做 Lake Crest 的芯片,它是专为训练DNN而深度定制的ASIC解决方案,预计今年下半年测试,2018年上市。据 Naveen Rao 曾经对媒体介绍,相对于目前最快的GPU, Lake Crest的加速性能是它的10倍。


[1] 在半导体研究和制程上,包括质量判定时,TPC是 Thermo Pressure Cook 中文简称高温高压测试,是半导体质量关键点。


推荐阅读

史海拾趣

ZTE高新兴(Gosuncn)公司的发展小趣事

对于J-107B型高频双头式热合机电路,网友可能提出的问题及回答如下:

问题一:J-107B型高频双头式热合机的主要工作原理是什么?

回答:J-107B型高频双头式热合机的主要工作原理是利用高频电场作用于塑料材料,使其内部分子发生极化现象,并在高频电场的快速变化下,这些被极化的分子以同样极快的速度跟随变化,从而因介电损耗产生大量的热量。这些热量聚集并达到高温,使塑料材料熔化。在熔化状态下,通过施加一定的压力,可以使两块或多块塑料熔合粘结在一起,实现高频热合的目的。

问题二:J-107B型高频双头式热合机的电路结构有哪些主要部分?

回答:J-107B型高频双头式热合机的电路结构主要包括以下几个主要部分:

  1. 高频振荡电路:这是热合机的核心部分,通常由电子管(如Fu-33中功率发射电子管)组成,用于产生高频电场。电子管通过自激振荡方式工作,利用电子管的授间电容作振荡回路的主电窖,组成考毕兹振荡器。

  2. 时间控制电路:用于控制热合的时间,通常由电子管(如6P6P电子管)和时间控制元件(如RP1和RP2调节器)组成。通过调整这些元件,可以精确地控制热合过程中的各个阶段时间,如预热时间、熔合时间和冷却时间。

  3. 电源电路:为整个热合机提供稳定的电源供应,确保高频振荡电路和时间控制电路的正常工作。电源电路需要满足一定的电压和电流要求,通常要求电源电压在190~230V范围内。

  4. 保护电路:为了防止电路过载、短路等异常情况的发生,热合机还配备了保护电路。这些电路能够在检测到异常情况时迅速切断电源,保护设备和操作人员的安全。

问题三:如何维护和保养J-107B型高频双头式热合机?

回答:为了保持J-107B型高频双头式热合机的良好性能和延长使用寿命,需要进行定期的维护和保养。以下是一些建议:

  1. 定期检查电源线和插头:确保它们没有损坏或松动,避免电源问题导致的故障。

  2. 清洁机器内部:定期清理机器内部的灰尘和杂物,保持机器内部的清洁和干燥。这有助于防止电子元件因灰尘积累而损坏。

  3. 检查电子元件:定期检查高频振荡电路和时间控制电路中的电子元件是否损坏或老化。如有需要,应及时更换以确保电路的正常工作。

  4. 调整和维护模具:模具是热合机的关键部件之一,需要定期进行调整和维护。确保模具的接合位置准确、平整,避免模具损坏导致的热合质量下降。

  5. 注意安全操作:在操作过程中,应注意安全用电和防火措施。避免在潮湿或腐蚀性气体环境下使用热合机,以防止触电或设备损坏。

  6. 定期校准:对于需要精确控制时间或温度的热合机,应定期进行校准以确保其准确性。这有助于提高热合质量和生产效率。

Holtek(合泰)公司的发展小趣事

Holtek(合泰)公司电子行业的五个发展故事

故事一:初创与台湾半导体产业的崛起

1983年,合德集成电路的成立标志着Holtek(合泰)的前身正式踏入半导体行业,为台湾半导体产业开启了新篇章。随着技术的不断积累和市场需求的增长,1988年,合泰半导体在新竹科学园区的建立,成为公司在晶圆制造领域的重要里程碑。这一时期,合泰半导体专注于技术创新与品质提升,逐步在竞争激烈的半导体市场中站稳脚跟,为后续的快速发展奠定了坚实基础。

故事二:晶圆制造与全球市场的拓展

进入90年代,合泰半导体迎来了快速发展期。1990年,五英寸VLSI晶圆厂的完工并开始生产,标志着公司在晶圆制造方面迈出了坚实的一步。随着生产能力的提升,合泰半导体开始积极拓展全球市场。2000年,公司股票公开发行,并通过国际ISO9001质量系统认证,进一步巩固了其在行业内的地位。同年,香港分公司的成立,以及随后在美国和上海设立的子公司,使得合泰半导体的业务版图迅速扩展至全球,加强了其在北美和大陆地区的销售与技术服务能力。

故事三:技术创新与产品研发

合泰半导体始终将技术创新视为企业发展的核心动力。进入21世纪后,公司不断推出具有竞争力的新产品,以满足市场的多样化需求。例如,在MCU(微控制器)领域,合泰半导体凭借其在低功耗、高性能方面的技术优势,成功开发出多款适用于触控、健康量测、工业控制等多个领域的MCU产品。这些产品的推出不仅丰富了公司的产品线,也进一步提升了公司在全球市场的竞争力。

故事四:物联网市场的布局与深耕

随着物联网市场的兴起,合泰半导体敏锐地捕捉到了这一新兴市场的巨大潜力。公司开始积极布局物联网领域,致力于为客户提供从硬件到软件、从芯片到解决方案的一站式服务。在智能家居、健康医疗、智慧城市等物联网应用场景中,合泰半导体凭借其专业的MCU产品和强大的技术服务能力,赢得了众多客户的信赖与合作。通过不断的技术创新和产品优化,合泰半导体在物联网市场中占据了重要地位。

故事五:人才培养与校企合作

人才是企业发展的根本。合泰半导体深知这一点,因此一直将人才培养视为企业发展的重要战略之一。公司不仅为员工提供丰富的在职培训计划和职涯提升管道,还积极与高校开展校企合作,共同培养具有创新精神和实践能力的专业人才。例如,与某高校共建单片机应用开发联合实验室,不仅为学生提供了实践锻炼的平台,也为企业输送了大量优秀人才。这种校企合作模式不仅促进了企业的技术创新和产品研发,也为行业培养了大量高素质的专业人才。

Heatron LED Integration公司的发展小趣事

Heatron LED Integration始终将客户需求放在首位,提供全方位的服务支持。公司建立了完善的售前咨询、售中指导和售后服务体系,确保客户在使用过程中能够得到及时、专业的帮助。此外,公司还根据客户需求提供定制化解决方案,满足不同场景下的照明需求。这种客户至上的服务理念,赢得了广大客户的信赖和好评。

Acculin Inc公司的发展小趣事

随着电子行业的竞争加剧,Acculin Inc面临着市场份额下降的挑战。为了应对这一变化,公司决定调整战略方向,将重点转向智能穿戴设备市场。通过研发具有独特功能的智能手环和智能手表,Acculin成功吸引了年轻消费者的关注,并在新的市场领域取得了突破。

世纪金光(CENGOL)公司的发展小趣事

随着新能源汽车市场的快速发展,世纪金光敏锐地捕捉到了这一领域的巨大潜力。公司迅速组建专项研发团队,基于碳化硅技术开展新能源汽车电机驱动系统的研发工作。经过不懈努力,世纪金光成功开发出基于碳化硅技术的新能源汽车电机驱动系统,并在技术上取得了重要进展。这一成果不仅提升了新能源汽车的性能和效率,也为公司打开了新的市场空间。

昆泰芯微电子(CONNTEK)公司的发展小趣事

随着物联网技术的快速发展,昆泰芯微电子紧跟时代步伐,深度布局物联网应用领域。公司专注于面向物联网应用的传感器芯片研发、生产和销售,致力于成为传感器信号链及物联网芯片的行业领导者。在消费电子、智能制造、智能交通、智能家居以及新能源汽车等多个领域,昆泰芯微电子的产品得到了广泛应用,为这些领域的发展提供了强有力的技术支持。

问答坊 | AI 解惑

谁知道EWB中默认的ADC是哪个型号的芯片啊?

本帖最后由 dontium 于 2015-1-23 13:26 编辑 谁知道EWB中默认的ADC是哪个型号的芯片啊?能告诉我吗?谢谢,我做设计用那个仿真结果很好,可是不知道那具体是哪个芯片啊 …

查看全部问答>

C51使用技巧及实战.rar

C51使用技巧及实战.rar…

查看全部问答>

扩展串口芯片驱动的问题

PXA270+WinCE6.0  通过总线扩展串口 芯片 ST16c554 扩出了4个串口 对串口了解不够,请问一下,写扩展串口的驱动需要注意哪些? 对比芯片资料发现里面寄存器的配置与16550差别不大,是不是可以继承16550的pdd层? mdd层需要修改吗,还 ...…

查看全部问答>

电子信息工程的女生该选择什么样的发展方向

   我是电子信息工程的在校大三女生,我想请教一下各位,我们这个专业的女生应该选择怎样的发展方向,或深入学些什么知识,明年毕业才能找到较理想的工作?本人的动手能力和编程能力都很一般,没有深入学习。有人提议我选择单片机,但是 ...…

查看全部问答>

程序编译出现问题

请版主及各位朋友看看,我用定时器1做脉冲信号的输出,程序编译时候TIM1出现了好多错误,但是我明明已经把stm32f10x_tim.c这个文件加入到了工程项里面,不知道为什么还会出现这些问题,请大家指点一下问题出在哪里。 下载 (58.14 ...…

查看全部问答>

纳米测量中屏蔽罩的重要作用

电缆的不当使用会造成测量时间过长的问题。共轴电缆提供了一个传输信号的内导体和屏蔽。内导体和屏蔽之间存在着可供漏电流流过的旁路电阻和电容通路[1](图4)。除了作为漏电流的通路之外,旁路的R和C还构成了一个RC电路,该电路将大大放慢弱电流 ...…

查看全部问答>

TI Cortex-A8 TQ_AM335X的简介

TQ_AM335X开发板是广州天嵌计算机科技有限公司专门针对有一定开发经验或企业用户提供的一整套的学习和解决方案。TQ_AM335X提供了一个性能稳定及成本低廉的Cortex-A8开发平台,以便您快速熟悉TI AM335X处理器特性和设计方法,并加快您的产品开发进度 ...…

查看全部问答>

2440学习记录(十四)守护进程的创建

这一节学习守护进程的创建 参考文献 blog.sina.com.cn/s/blog_643d3d780100lbsg.html blog.csdn.net/mybelief321/article/details/9069659 守护进程是脱离于终端并且在后台运行的进程。守护进程脱离于终端是为了避免进程在执行过程中的信息 ...…

查看全部问答>

LPC1500体验+SCT_1、寄存器

本帖最后由 freebsder 于 2014-8-15 21:59 编辑 1, CONFIG寄存器中的UNIFY位设置timer作为1个32位还是2个16位计时器。在访问其他寄存器之前设置这个位。       UNIFY = 1: Only one register     is ...…

查看全部问答>