历史上的今天
今天是:2025年02月04日(星期二)
2021年02月04日 | GPU PK CPU,到底哪个最强
2021-02-04 来源:21IC
GPU在现在的应用中越来越重要,对于GPU,我们都具备些许了解,因为不论是手机中、还是电脑里面,都有GPU的身影。为增进大家对GPU的认识程度,本文将探讨一下GPU和CPU,看看谁的优势更大。此外,小编还将对GPU加速原理予以介绍。如果你对GPU具有兴趣,不妨继续往下阅读哦。
一、GPU与CPU孰强孰弱?
GPU是替代不了CPU的,同样,CPU也替代不了GPU。如果形象点理解,GPU就像一群蚂蚁,这些蚂蚁都做着同样的事,而CPU就像一只猴子,这只猴子做着各种不同的事。从根本上说CPU和GPU它们的目的不同,且有不同侧重点,也有着不同的性能特性,在某些工作中CPU执行得更快,另一工作中或许GPU能更好。

当你需要对大量数据做同样的事情时,GPU更合适,当你需要对同一数据做很多事情时,CPU正好。
然而在实际应用中,后一种情形更多,也就是CPU更为灵活能胜任更多的任务。GPU能做什么?关于图形方面的以及大型矩阵运算,如机器学习算法、挖矿、暴力破解密码等,GPU会有所帮助。
简单地说,CPU擅长分支预测等复杂操作,GPU擅长对大量数据进行简单操作。一个是复杂的劳动,一个是大量并行的工作。
其实GPU可以看作是一种专用的CPU,专为单指令在大块数据上工作而设计,这些数据都是进行相同的操作。
要知道处理一大块数据比处理一个一个数据更有效,执行指令开销也会大大降低,因为要处理大块数据,意味着需要更多的晶体管来并行工作,现在旗舰级显卡都是百亿以上的晶体管。
CPU呢,它的目的是尽可能快地在单个数据上执行单个指令。由于它只需要使用单个数据单条指令,因此所需的晶体管数量要少得多。
目前主流桌面CPU晶体管都是十亿以下,和顶级GPU相差十倍以上,但它需要更大的指令集,更复杂的ALU(算术逻辑单元),更好的分支预测,更好的虚拟化架构、更低的延迟等等。
另外,像我们的操作系统Windows,它是为x86处理器编写的,它需要做的任务执行的进程,在CPU上肯定更为高效,你想每个线程的任务并不相同,基本上难以并行化,完全发挥不了GPU的长处。
那么,可以预见在未来,随着CPU进一步强化处理数据块的能力,我们将看到CPU和GPU架构之间的融合,而且随着制造技术的进步和芯片的缩小,GPU也可以承担更复杂的指令。
二、GPU加速原理
GPU一推出就包含了比CPU更多的处理单元,更大的带宽,使得其在多媒体处理过程中能够发挥更大的效能。例如:当前最顶级的CPU只有4核或者6核,模拟出8个或者12个处理线程来进行运算,但是普通级别的GPU就包含了成百上千个处理单元,高端的甚至更多,这对于多媒体计算中大量的重复处理过程有着天生的优势。下图展示了CPU和GPU架构的对比。

从硬件设计上来讲,CPU由专为顺序串行处理而优化的几个核心组成。另一方面,GPU则由数以千计的更小、更高效的核心组成,这些核心专为同时处理多任务而设计。

通过上图我们可以较为容易地理解串行运算和并行运算之间的区别。传统的串行编写软件具备以下几个特点:要运行在一个单一的具有单一中央处理器(CPU)的计算机上;一个问题分解成一系列离散的指令;指令必须一个接着一个执行;只有一条指令可以在任何时刻执行。而并行计算则改进了很多重要细节:要使用多个处理器运行;一个问题可以分解成可同时解决的离散指令;每个部分进一步细分为一系列指示;每个部分的问题可以同时在不同处理器上执行。
举个生活中的例子来说,你要点一份餐馆的外卖,CPU型餐馆用一辆大货车送货,每次可以拉很多外卖,但是送完一家才能到下一家送货,每个人收到外卖的时间必然很长;而GPU型餐馆用十辆小摩托车送货,每辆车送出去的不多,但是并行处理的效率高,点餐之后收货就会比大货车快很多。
史海拾趣
|
在印制板加工厂采用的是自动化的连续作业设备,设备成本昂贵,这在业余条件下是根本不可能做到的。我们在这里推出的是一种接近工厂正规生产工艺流程,但生产工艺相对简单,设备极其低廉,业余条件下比较容易完成操作的方法。郑州东明电子研究所为此 ...… 查看全部问答> |
|
创意幽默的 DIESEL 这次将数位电子錶款带入另一个多彩境界,春夏全新推出「颜色DNA」电子錶款系列。此系列玩色十足,藉由 5 种不同的颜色DNA营造出不同的色彩活力,搭配极具前卫设计感的造型錶身,个性帅性。不论是热情生活的红色、尽情自我的蓝色 ...… 查看全部问答> |
|
【AVR】我都快疯了,哪位大侠帮帮忙关于定时器T0和T1配合产生间隔的38k方波! 小弟用TO做方波产生38k的红外线方波,用T1做延时,这样产生一段一段的方波,再用一体化接头接受,发现无论什么情况下,即T0中的OCR0无论设置什么值,一体化接头都能接受到。我把T1去掉,产生连续的T0方波,发现就正常了,为什么啊?哪为高手解释一 ...… 查看全部问答> |
|
刚接手别人N年前的一个汇编程序,用AT89C52控制对45AT45D041卡的读写.程序中每次最多只能读32字节,如果要读264字节就要分9次发送读取命令.为什么?是89C52容量有限还是41卡的特性决定的?还有就是用伟福调试时,把电路板上的晶振换大后并且程序也做了修 ...… 查看全部问答> |
|
款驱动模块可以驱1.3寸--15寸的TFT屏,使用非常方便,感兴趣的朋友可以给我发邮件所取资料。我的邮箱是 boy_201a@163.com 我的电话是010-62105007-802 13501104029 简单的串行接口,最小系统与用户的连线只需 3 根线( ...… 查看全部问答> |
|
我现在用例子程序PWMINPUT, 再PA0.1上我外接了一个PWM信号。例程中说:The TIMxCLK frequency is set to 72 MHz, the Prescaler is 0 so the TIM2 counter ...… 查看全部问答> |
|
我(初学者)用DM642怎么移植MPEG-4T算法(毕业设计)? 各位高手,我想请教一下,我正在用DM642移植MPEG-4算法,看了实验包里的 MPEG-2LOOPBACK程序后,有好多不明白: 1、是从哪个地方调用MPEG-2编解码的算法的? 2、DSP/BIOS编程是什么意思? 3、什么是RF-5设计框架?怎么使用? 望各位老师指点,谢谢 ...… 查看全部问答> |




