历史上的今天
返回首页

历史上的今天

今天是:2025年05月12日(星期一)

正在发生

2020年05月12日 | TOPS算力超华为昇腾910近2倍,Groq推理芯片强在哪儿?

2020-05-12 来源:半导体行业观察

运行 Batch Size 为1(即在推理处理期间对单个图像或样本进行计算)对于许多机器学习工作流来说是一个有价值的选择—特别是那些需要实时响应的工作流。对于安全性至关重要的应用以及通过视觉对象检测,语音识别或其他形式的数据输入创建新的客户体验而言,近乎瞬时的推断至关重要。例如,在电子商务网站中,当零售客户说出或键入产品名称时自动填充建议的能力就是最佳响应性需要batch size大小为1的一个例子。在无人驾驶汽车中,导航系统可能需要在几毫秒内做出反应,以避免撞上障碍物,因此拥有一个确保每次都能保证最小响应时间的处理体系结构对于安全是至关重要的。然而,小batch size和batch size大小1为机器学习应用程序引入了大量的性能和响应复杂性,特别是在基于GPU的传统推理平台上。

 

GPU架构和batch size限制

 

GPU过去是为大规模并行处理而设计的,它建立在多数据或多任务、固定结构的处理引擎上。这些平台最初是为游戏应用程序的实时三维图形渲染而创建的。GPU基于一组并行进程来渲染图形,这些并行进程同时发生在数百或数千个内核中。并行性依赖于管道架构,每个处理阶段都向正在进行的并行计算添加新数据。由于这种管道架构,GPU每秒可以执行数十亿个与图形相关的几何计算。

 

在机器学习应用程序中作为处理单元使用时,当以小batch size的数据输入时,GPU的性能会显著下降,因为数据流中的间隙会导致GPU执行的停滞。这种延迟可能会对batch size大小为1的实时推断性能产生显著影响,并对机器学习平台投资的TCO(总拥有成本)产生相关影响。如果应用程序依赖于batch size大小为1的处理来实现实时响应—例如,对于快速响应时间非常重要的应用程序—基于GPU的平台可能无法提供足够快的推断性能。这里将响应能力定义为在最小执行时间(延迟)内为工作负载提供服务的能力。

 

Groq为机器学习提供了一个替代平台,它不依赖于GPU并行性和长延迟的性能限制,为机器学习工程师提供了一个卓越的推理平台,对小batch size或任何规模的工作负载都没有性能损失。Groq的Tensor流处理器(TSP)架构是专门为机器学习和其他计算密集型应用程序的性能要求而设计的,要求低延迟和高吞吐量。

 

一个机器学习平台,即使在batch size为1的情况下也具有最高的性能

 

值得注意的是,Groq架构高度关注batch size大小为1时的低延迟、单线程性能。这个架构在我们的Tensor流处理器(TSP)中实现,是一个单线程、单核架构,可以在任何batch size下提供最大的性能。batch size为1时,Groq的处理器要比基于GPU的平台快17.6倍,大batch size时则要快2.5倍。

 

Groq编译器在TSP上调度程序执行,为在不受传统GPU体系结构的限制和通信开销的情况下实现灵活性和大规模并行性提供了新的范例。Groq编译器将流操作数编排为在芯片上执行的运算符。因为它了解硬件和每条指令的速度,所以编译器可以准确地告诉硬件效率该做什么以及什么时候做。这允许确定性、可重复性和可预测的性能。指令流到硬件完全由编译器编排,使处理高效且可预测。这种性能的可预测性非常有价值,特别是对于安全关键型应用程序来说,实时响应是至关重要的。

 

推理平台的敏捷性要求响应能力和性能

 

实现推理敏捷性(响应能力和性能的结合)的困难,在我们比较一些领先的机器学习平台的已发布基准的性能指标时变得更加明显。

 

下页的图1说明了在处理小batch size工作负载时,用于领先推理平台的ResNet-50v1.5基准的图像识别性能度量。该图显示推理平台处理小batch size图像数据所需的时间,X轴表示每个芯片每秒的图像,Y轴表示以毫秒为单位的延迟。这些基于GPU的推断平台都会随着batch size大小的增加呈下降趋势,并向右移动,这意味着更大的延迟和更低的响应性。领先的基于GPU的推断解决方案NVIDIA V100,batch size大小为1,每秒可以处理1000多个图像,延迟为1毫秒。在batch size大小为1并运行ResNet-50 v2时,Groq TSP100芯片每秒能够处理18900个图像,延迟小于0.1毫秒。这种级别的性能是可能的,因为使用Groq,不需要运行更大的batch size大小来实现高吞吐量。在小batch size情况下,Groq芯片的性能比运行ResNet-50v1.5基准的基于GPU的平台高出3到20倍。

 

 

不同平台之间的性能差异如图2所示;它们以增加延迟(y轴上的响应速度较低)为代价交换更多的吞吐量(x轴上的每秒推断)。图2显示了在运行基准ResNet-50工作负载时低延迟需求或响应性对四个主要推断平台的性能的影响。x轴的范围从0到100%,表示必须以亚毫秒级延迟处理的总工作负载的百分比,尽可能接近实时。y轴表示以每秒推理次数(IPS)衡量的实际推理性能。

 

在图中,Groq TSP100推理平台的性能并没有随着响应速度的增加而降低:无论以零响应速度运行还是以100%响应速度运行,Groq平台都以最佳性能运行。但是,随着低延迟、响应性工作负载百分比的增加,基于NVIDIA V100和NVIDIA T4 GPU的平台性能迅速下降。在使用基于GPU的推理解决方案时,即使只有很小比例的低延迟,实时工作负载也会将宝贵的资源滞留在集群中,从而降低集群的利用率和总体性能。

 

当处理低延迟工作负载时,性能的急剧下降会影响执行实际推理处理所需的机器学习集群的大小。无论有多少推理工作量响应,Groq平台都能支持近20,000 IPS。然而,这两个NVIDIA平台不仅一开始的峰值性能IPS数量较少,而且一旦将任何实时响应工作负载添加到工作流中,IPS就会逐渐减少。如果运行一个100%的推理平台,延迟小于1毫秒,Groq芯片的速度几乎比NVIDIA GPU快18倍。

 

Groq降低了机器学习投资的TCO

 

当将上述结果外推到购买用于计算集群设计的参数时,这种性能和延迟差异变得特别有意义。为了实现少量Groq处理器的推理处理性能,需要在大量的NVIDIA GPU上进行投资。

 

例如,一个数据中心工程师正在部署一个800节点的计算集群来进行图像分类,该集群的一部分工作负载分布需要高度响应的处理,而其他工作负载的需求较少。图3演示了一个构建在NVIDIA V100 GPU上的800节点集群,它是为ResNet-50推理而设计的。作为节点性能要求的一部分,13%的工作负载必须具有高响应性,延迟小于1毫秒;另外44%的工作负载分布要求响应时间小于7毫秒;43%没有延迟要求,可以以batch size速度运行。由于小batch size时GPU的性能较低,要保证13%的工作负载在高响应推理下运行,需要将整个集群(401个节点)的一半以上用于处理低延迟工作负载。

 

 

由于在基于Groq的平台上能够更高效地处理小batch size工作负载,因此在Groq芯片上实现相同的延迟要求和工作负载分布所需的节点数要少得多;参见下面的图4。13%的工作负载必须是高响应的,延迟小于1毫秒,只能由25个基于Groq的服务器处理;需要响应时间小于7毫秒的工作负载分布的44%可以由85个Groq节点处理;可以batch size速度运行的43%的工作负载可以由83个Groq节点处理。总的来说,在相同的ResNet-50图像分类工作负载下部署基于Groq的节点会导致集群服务器减少75%,同时保持相同的吞吐量,这是由于NVIDIA V100 GPU和Groq处理器之间的总体性能差异16倍造成的。

 

 

事实上,在集群中部署了Groq之后,就不需要区分性能和响应能力,因为Groq处理batch size大小为1和大批大小的batch size时具有相同的低延迟和高效率。因此,对于需要响应能力以满足用户期望和满足严格的服务水平协议(sla)的工作负载,只需要25台Groq服务器就可以替代401台NVIDIA服务器。

 

结论

 

机器学习推理的性能和响应能力之间的比率对于计算集群的设计和投资具有显著的现实影响。其他机器学习平台需要在延迟和吞吐量之间进行权衡。在非Groq平台中,性能会迅速下降,即使一小部分工作负载需要实时、低延迟响应。Groq革命性的TSP架构提供业界领先的性能和亚毫秒级延迟,为计算密集型应用程序提供高效的软件驱动解决方案。

推荐阅读

史海拾趣

浙江东亚电子(DongYa)公司的发展小趣事

浙江东亚电子注重企业文化的建设,致力于为员工提供一个良好的工作环境和发展平台。公司关注员工的学习和成长,为员工提供持续长效的发展机会和有竞争力的薪酬。同时,公司还积极开展各类文化活动和社会公益活动,增强员工的归属感和凝聚力。

这些故事框架展示了浙江东亚电子在电子行业中发展起来的几个重要方面。通过技术创新、产业布局拓展、国际市场开拓、品质管理提升和企业文化建设等方面的努力,公司不断壮大自身实力,成为行业内的佼佼者。

Hi-Tech Resistors Pvt Ltd公司的发展小趣事

浙江东亚电子一直将品质管理作为公司发展的重要基石。公司建立了完善的质量管理体系,从原材料采购到产品制造、销售等各个环节都严格把关。此外,公司还积极参与行业标准和规范的制定工作,不断提升自身的品质管理水平。

Aeroflex Metelics / Hi-Rel Components公司的发展小趣事

浙江东亚电子不仅在国内市场上取得了显著成绩,还积极开拓国际市场。公司已为多家世界五百强企业、上市公司提供服务,如华为、中兴、通用电气及西门子等。通过与这些国际知名企业的合作,公司不仅提升了自身品牌的影响力,还积累了丰富的国际市场经验。

Allied Controls Incorporated公司的发展小趣事

随着公司的发展,浙江东亚电子不断拓展其产业布局。除了传统的电力电子元件、分流器等产品外,公司还涉足新能源汽车、充电桩、变频器和储能等领域。特别是在新能源汽车和充电桩领域,公司紧跟国家“新基建”发展战略,推出了一系列具有竞争力的产品,为公司带来了新的增长点。

超霸(GP)公司的发展小趣事

2013年,绿索超容在南京江宁区智能电网产业园正式成立。公司自创立之初,就明确了“制造中国可靠性最高的超级电容”的目标,以及“引领超容行业,做绿色能源模范”的使命。这一清晰的发展定位,为绿索超容后续的技术创新和市场拓展奠定了坚实的基础。公司初期虽然面临资金和技术挑战,但通过不懈努力,逐步建立了自己的研发团队和生产体系。

EBK Kruger GmbH & Co KG公司的发展小趣事

随着全球环保意识的提高,EBK Kruger积极响应绿色生产的号召。公司投入大量资金研发环保型电子产品,并优化生产流程以减少能源消耗和废弃物排放。通过这些努力,EBK Kruger不仅降低了生产成本,还提升了企业的社会责任感,赢得了更多客户的支持和信任。

问答坊 | AI 解惑

步入现场控制领域的工业以太网

1 引言     传统上用于办公室和商业的以太网伴随着现场总线大战硝烟已悄悄地进入了控制领域,近年来以太网更是走向前台,发展迅速,颇引人注目。究其原因,主要由于工业自动化系统正向分布化、智能化的实时控制方面发展,其中通信已成为 ...…

查看全部问答>

希望大家能给我详细讲解一下!!!!!!!

p5输入端,sout输出端,希望能得到详细的讲解(包括每个元器件的作用以及信号具体流向),在此多谢了!!!…

查看全部问答>

地下探测雷达(金属)

第二次世界大战中英国发明的空中探测雷达对于探测飞机、火箭等目标所作出的重大贡献早已家喻户晓。但是近二十年来将雷达用于探测地下目标的技术获得了长足的发展。要探测的地下目标很多,包括金属、文物、地下水,天然气,尸体以及地下任何有断层或 ...…

查看全部问答>

请教各位大虾,初学者问个编译的问题。

我刚学嵌入式不到一个月,遇到N多问题,一路百度过来的,现在这个实在是没办法解决了,故特来此地找大虾们帮帮忙啊。 我用的 VS2005 +WINCE6.0  ,系统定制时,用的是系统的BSP,步骤是:\"建立——下一步——下一步。。。。完成\"生成 ...…

查看全部问答>

VxSim在驱动程序的开发中是不是作用很有限?

VxSim-是一个全面的VxWorks仿真器,提供和真实目标机一致的调试和仿真运行环境,允许开发者在没有BSP、操作系统配置、目标机硬件的情况下,基于VxSim迅速开始软件开发。 我想做的是CPU外围设备的驱动程序的开发,就是说跟具体的外围设备是紧密相连 ...…

查看全部问答>

这些二极管参数是什么意思?

MODEL MR821 D ( + IS = 5.989e-09 + RS = 0.00477 + CJO = 1.139e-10 + VJ = 0.7174 + TT = 3.25e-08 + M = 0.2698 + BV = 100 + N = 2 + EG = 1.11 + XTI = 3 + KF = 0 + AF = 1 + FC = 0.5 + IBV = 0.0001 + TNOM ...…

查看全部问答>

电源芯片到底是怎么分类的

来自EEWORLD合作群:12425841 我看LM317 既有说线性稳压电源的 也有说开关电源的 …

查看全部问答>

avr studio 5.1 求助啊 !!!

新建工程文件 仿真的时候出现   错误 target voltage seems to be below operating range for this device family. Make sure the target is powered on and try again  试过好几次啦 都是这样 望高人指点啊 …

查看全部问答>

工厂自动化系统采用工业以太网交换机铺设工业以太网通信线路

  以太网现在已经深入至社会的各个层面,特别是现在的办公自动化已经是完全基于以太网进行的,如何将工厂自动化控制系统与办公自动化系统完全无缝结合在一起,有很多解决方案,将以太网网络完全延伸至工厂自动化控制系统,让其完全基于以太网进 ...…

查看全部问答>

ISE中不能生成.xaw结构设计向导

最近遇到个问题,就是在ISE中新建dcm或pll 的architecture wizard时,一直新建不了,提示   ERROR:sim - Failed to generate \'dcm\'.  Architecture Wizard process returned with    an error. Wrote CGP file ...…

查看全部问答>