历史上的今天
返回首页

历史上的今天

今天是:2024年12月11日(星期三)

正在发生

2021年12月11日 | 行胜过言,下一代国产GPU风华正茂

2021-12-11 来源:爱集微

几年前,AMD、高通和英特尔相继进入了人工智能领域,面对人工智能芯片领域已经被大公司固守的局面,“皮衣教主”黄仁勋对媒体说,如果这个市场跟产业都已经发展得足够好了,那我们为什么还要浪费才能,在别人已经做得足够好的事情上?

几年后,当计算需求起飞、中美科技博弈,GPU国产化需求日益紧迫,众多来自英伟达、AMD等巨头的资深华人专家回国纷纷创立国产GPU团队,并在短时间内就凭借PPT斩获巨额融资。面对黄教主固守的GPU城池,谁又将是新的“英伟达”冲击者?最近,芯动云计算总裁敖海也穿上一件皮衣,吹响了冲锋的号角。然而,首款国产高性能4K级显卡GPU芯片“风华1号”发布的背后,是众多亟待解决的技术和产业链生态难题。


打造一颗GPU有多难?

数据显示,2020年全球GPU市场规模达254.1亿美元,预计2027年将达到1853.1亿美元,年均复合增长率高达32.82%。全球GPU同样呈现寡头垄断的格局,在传统GPU市场,排名前三的英伟达、AMD、英特尔的营收几乎垄断整个GPU行业的销售;在手机和平板等移动GPU市场,联发科、海思麒麟和三星Exynos的GPU设计主要基于Arm Mali GPU或Imagination PowerVR架构,而高通骁龙Adreno和苹果A系列则采用自研架构。

当游戏、数据中心、自动驾驶、矿机、VR/AR、AI等领域对算力的迫切需求与日俱增,算力将成为大数据时代的核心,GPU不仅为个人电脑、服务器和移动设备进行各种图形处理工作,还因人工智能的兴起,在科学计算、自动驾驶、智能分析、密码破解、图像识别、大数据、金融交易等主流云计算领域广为应用,地位水涨船高。但国产GPU研发已经进行了多年,何以至今未取得较大的突破?

芯动科技工程副总毛鸣明指出,GPU是用于加速计算机三维图形处理渲染过程的专门芯片,需要同时处理多个图元上的多个像素点,GPU的架构具有多个计算核可以对同一个指令用不同的数据并行计算,从而大大提高了GPU的性能。“虽然GPU中的指令集比起CPU要简单,但是计算核的数量比CPU多很多倍,所以GPU执行可并行度高的计算时会大幅度提高计算效率。一般GPU芯片中的逻辑门数量会比CPU多十倍以上,这是GPU系统复杂的原因之一。”

并且,GPU不止是可以做数学运算的计算核,还要实现复杂的三维图形实时处理。“当你在玩游戏时屏幕上每一个像素的颜色都是经过GPU上百次的计算产生的,其架构设计也要不断改进更新来适应新的市场需求。这也是GPU系统复杂的原因之一。”

除了技术上的难点,GPU开发难的一个重要因素是人才稀缺,同时需要数年或更长时间投入以及几亿到十亿以上的资金支持。全球GPU芯片领域从几何物理渲染到计算引擎领域的知名专家、芯动首席算法科学家杨喜乐博士也在演讲中提到,渲染流程涉及大量图形学、数学运算,需要有数学及逻辑分析能力,与CPU类似的ALU算术逻辑技术单元,则需要计算机架构设计知识。人才缺乏是一大挑战,大部分GPU架构,渲染流程及硬件设计在大学课程里没有讲授,资深GPU工程师资源有限,这不仅仅是在中国,全球的现状均是如此。

因此,准确的说应该是GPU的系统设计更为复杂,系统庞大,技术涉及面广,需要一个技术积累过程。这对于基础本就薄弱的国内芯片设计产业来说更是雪上加霜。


GPU的国产化具体面临着哪些困境?芯动科技SoC体系架构师何颖分别从技术和生态两方面进行了分析。何颖指出,首先在体系架构方面,需要对GPU现代渲染架构完全掌握,并拥有持续迭代的能力。需要具备最先进工艺节点的SoC设计的成熟经验,熟悉多核系统设计、性能优化和工艺调优等;其次在IP方面,GPU的性能发挥离不开高带宽,因此需要多种成熟可靠、可定制、可升级的高性能IP,比如PCIe4/5、GDDR6/GDDR6X、HBM2、DDR5/LPDDR5、Chiplet、HDMI2.1、DP/eDP 1.4等等;在团队方面,需要具备多学科领域的专业团队协作,包括但不限于图形学、算法、硬件架构、软件架构、系统架构、硬件数字开发、验证、模拟开发、后端、版图、系统、软件、驱动、测试、机械结构、生产等等众多领域的专家。

其次在生态方面,一方面构建软件生态需要强大的软件开发团队,以适配不断快速发展的API和应用侧需求,包括Windows、Linux、Android,DirectX、Vulkan、OpenGL/OpenGL ES/OpenCL/TensorFlow等;另一方面需要适为不同客户量身定制应不同行业、不同应用场景的芯片,包括国产桌面/服务器、移动平台,显示设备、汽车/自动驾驶、VR/AR、游戏娱乐等各种应用。

毛鸣明表示,“国产GPU发展到今天,可以集全国力量打造一个GPU软件团队,却很难组建GPU硬件团队,一些核心的模块基本都没有在中国设计过,所以我们现在还不具备相应的基础,但是可以在发展的过程中不断探索、学习。国产GPU在起步阶段先求生存,兼容现有生态更容易发展;长期还是要摆脱兼容思路,站稳脚跟后发展自有的核心技术。”

“风华1号”横空出世的背后

相比于国内一些高调曝光动态的GPU创业团队,芯动科技的“风华1号”要低调得多,11月中旬爆出回片测试成功,月底就正式亮相了。临出发前,敖海特意翻出一件压箱底的皮夹克穿上,可见他朝着“黄教主”的目标又近了一步。“GPU门槛这么高必然有它的原因,但是我们今天如果不做,就会永远被垄断。”敖海表示,“做GPU,我们是认真的。现在我们迈出了这一步,迟早有一天可以让大家很流畅地使用国产的GPU,可以发微博说‘我用了国产GPU很爽,能够工作、能够娱乐、能够设计’。现在是‘风华1号’面世,随着风华系列的迭代,相信芯动科技终将实现这个目标。”

芯动科技敢于啃GPU这块“硬骨头”的底气来自哪里?毛鸣明解释,GPU涉及到众多的核心模块和I/O,在这方面芯动科技长期深耕核心技术,积累了200多次先进工艺流片经验,与台积电、三星、格芯、中芯国际、联电、英特尔、上海华力等全球领先的晶圆代工和封测厂商结成了良好的合作伙伴关系,在长期研发中积累了GPU所需要的全套高端IP、图形芯片内核定制技术和先进工艺经验,包括GDDR6/6X、HBM2e/3、INNOLINK Chiplet等全自主国产高端技术,因此走向GPU研发是多年技术积累厚积薄发的必然结果。

芯动科技决心研发GPU,并为此组建了强大的GPU研发团队:例如首席算法科学家杨喜乐博士毕业之后,在英国Imagination公司作为顶级架构师,25年来一直从事GPU核心图形引擎的建模和创新,是全球GPU芯片领域从几何物理渲染到计算引擎领域的知名专家,持有GPU 3D计算机图形学核心领域顶级图形专利共计125项,目前Imagination、苹果等公司最新的核心GPU产品的设计、优化和迭代都离不开她的专利和算法;此外还有DX团队负责人章涛是前AMD的图形框架开发的领军人物等等。据毛鸣明透露,芯动科技深度参与GPU研发的核心人员达到200多人,加上其他部门参与研发的则达到了400多人,整个公司60~70%的研发资源都在支持GPU产品线。“国内近几年招募回来的GPU人才,有三分之二在芯动科技。”

人才团队搭建完成后,最底层的GPU架构技术是一个问题。毛鸣明表示,GPU架构的复杂度极高,如果架构从零开始设计周期太长,并且涉及众多专利,因此芯动科技选择“站在巨人的肩膀上”。去年10月,芯动科技宣布与Imagination达成合作,将采用多晶粒封装芯片(Chiplet)和GDDR6高速显存等SoC创新技术,基于Imagination全新顶配BXT多核架构,开发“风华”系列GPU,并且在架构授权上进行自研演进,这是自主可控的。

据悉,芯动科技与Imagination的合作是与苹果一样的架构授权,而不仅仅是某一个IP的授权。如何把这个架构做成最终的GPU,不是简单的堆砌核和各种IP就行了,如何把他们有机地利用、调用起来,如何通讯都要付出大量努力。何颖强调,芯动在这个初始架构上探索了很多自己的方案,包括自研的Cache一致性Innolink Chiplet技术,内置国产物理不可克隆iUnique Security PUF信息安全加密技术,提升数据安全和算力抗攻击性等等。“最主要解决的问题是打破算力的限制,把我们的硬件架构拓展到能够支持更多的客户,或者更重的计算性能的场景上,并解决初始架构一些天然的限制或者不能解决的问题,这样才能真正地完成迭代,把原生移动端的架构拓展到高性能计算、云计算等场景。”

芯动科技之所以选择IMG B系列GPU架构,是因为它具有令人印象深刻的可扩展性,以及能够提供高达6 TFLOPS(每秒万亿次浮点运算)的计算能力;同时,与前几代产品相比,其功耗降低了多达30%,面积缩减了25%,并且还增加了Imagination全新的多核技术。这在系统级芯片(SoC)和多芯片封装中,可更加灵活地控制每个独立内核的配置和布局。该IP的多功能性意味着它可以在此基础上创建多个平台,从而可以从移动端扩展到云端级解决方案。

“得益于Imagination BXT架构的多核可扩展性,芯动能够为我们的客户打造量身定制、融合图形和智能计算的显卡芯片解决方案,以满足高端桌面和数据中心的需求。而且该架构是基于安卓开发的原生架构,风华GPU在安卓云游戏上也会更具备优势,跟Arm、X86服务器平台都能适配,对各种Linux、安卓和国产各种操作系统都能支持。”毛鸣明表示,“当然,站在巨人的肩膀上能成功的前提也必须自身够硬。凭借芯动在GDDR6/6X高速存储、缓存一致的Chiplet创新、以及高性能多媒体处理器优化等方面的坚实积累,进而去开发独立的、支持PCI-E规格的GPU显卡芯片是水到渠成的事情。”


俗话说做GPU是三分硬件,七分软件。GPU硬件搭建出来后,就要进行各种适配各种框架平台和API,芯动科技在Imagination BXT架构的基础上进行了算法等方面的深度开发,比如OpenGL4.0,授权的时候OpenGL没有支持到4.0,就需要芯动科技自己开发,目前已经基本支持所有标准API,DirectX到明年也可以完成开发。毛鸣明强调,GPU需要不断更新,不论是硬件还是软件都需要不断迭代以支持更高版本的API接口。其次图像GPU领域的趋势要关注,比如以前不用支持DirectX,渲染技术在不断更新等。最后还要拓展新领域,比如光线追踪技术、做算力等等。“第一版芯片主要针对手机游戏上云,正在与几大云服务提供商进行适配。目前芯片内部测试基本已经告一段落,接下来与客户一起进行适配,顺利的话在明年春节后就可以开始订购。”

何颖补充说,获得授权的架构还将针对未来国产GPU生态建设和国内使用环境进一步深度定制,加上自研的核心技术和大量创新,确保了国产GPU持续演进和自主可控。

据悉,在“风华1号”测试成功的消息传出后,已经有国外媒体闻风而动,联系芯动科技希望获得更多信息。“国外用户也希望能有一个新的GPU竞争者来打破当前的垄断”,毛鸣明透露,“我们目标是做中国的英伟达。”

面对未来GPU产品线盈利问题,毛鸣明认为,目前国内信创市场每年为几百万张卡的规模,服务器显卡数十万张左右但是成长快,单卡的价格是信创产品的十倍甚至几十倍。因此在信创市场上要盈利比较难,因为它本身就偏向于中低端市场,但是其实在服务器端的盈利还是比较有希望的。“如果我们做得好的话,可能在一两年内就可以打平。”


在此之前,芯动科技则已经制定了风华系列清晰的演进路线。敖海表示,明年初就会推出风华2号和3号,采用5nm工艺,后续保持每年推服务器和桌面系列芯片出各一款的更新速度,性能不断大幅度提升。

资本堆砌不出来市场接受的国产GPU

现阶段芯动科技会专业聚焦于渲染GPU市场,并且瞄准国产信创桌面和服务器这两大细分领域,其中服务器主要是指安卓云游戏领域。毛鸣明解释,一方面,信创市场做的是国产替代,另一方面芯动科技选择做更商业化的产品,也就是云服务器和云游戏的市场。“我们敢于拥抱商业化的竞争,做更商业化的产品。当然我们未来也有GPGPU的规划。”

面对当前国内浮躁的GPU创业现象,毛鸣明指出,国内投资GPU的热潮既是商业化的需求,也是国家战略替代的需求。GPU市场非常大,但相较于已有一定积累的CPU来说,我国在GPU方面的发展进度还十分缓慢。目前桌面和移动端的GPU基本被英伟达、AMD、Arm垄断,所以国产替代的空间和潜能也很大。“国产GPU和CPU一样,也是具有国家战略意义的高端集成电路产品,可以说是一个巨大的蓝海市场。投资者青睐GPU领域其实也是看好这个市场的巨大发展前景和机会。”

但是也不能忽视这股热潮背后的投机属性。“一方面,一些GPU新势力尚没有明确自己的细分市场,没有想清楚未来长远的发展方向,还只是停留在PPT阶段,所以尽管热度高涨,但真正能用产品说话的企业非常少,尤其是高性能商业化的渲染GPU产品凤毛麟角。”他说,“另一方面,GPU技术门槛高,长期被英伟达和AMD等霸主垄断,新势力想要生存必须掌握有核心技术,有多年的技术积累和人才资金供给。长远来看,GPU领域在竞争中将会逐渐由多家公司收敛成屈指可数的几家公司。”

对于芯动而言,选择了难度更高的图形渲染GPU作为切入点,而不是GPGPU。“虽然GPGPU的价值很高,增长也不错,但细分市场总的体量还是远不及图形渲染领域。芯动选择的是一个起步很难但可以走得很远的赛道。”毛鸣明解释,目前大多数初创公司基本上是做GPGPU,因为它主要实现的还是相对比较简单的一些AI运算,相对图形渲染GPU是小容量的市场。而图形渲染GPU就比较难,因为流水线(pipeline)特别长,经过了十几年的演化进程,实现会更加复杂,设计也要难得多,而且其中还有很多专利陷阱,也就是常说的雷区(Minefield)。

“‘风华1号’的成功不是靠资本堆砌出来的。”他强调,芯动科技做GPU至今已经投入了几个亿,但是都是自有资金,架构授权、流片都是自费的,没有为此融过资。“但是GPU不一定是集全中国之力就一定能够完成的,特别是在硬件方面,还是需要全球化的团队。因此我们慢慢会保持更开放的姿态,继续吸纳优秀的人才,也会接触投资人,以便更有底气也有能力把GPU做好。”

毛鸣明也认可,长远来看,芯片技术需要经年累月的迭代和优化,巨大的研发费用和资本开支是必需,但是下游产业链长期、持续的利润支撑才是芯片长久发展的强力驱动。也就是说,芯片的成功和成熟需要大量的验证和出货,而找到可持续的落地场景才是长期发展的关键驱动力。所以国产GPU生态要突围,还必须脚踏实地,从切切实实的好产品开始。

用户真正需要的GPU,不仅能跑,还要跑的好,跑的快。我们也期待,国内能尽快出现市场认可并接受的、好用的GPU,而不是仅仅停留在硬件和技术层面。


GPU
推荐阅读

史海拾趣

Hirose Electric公司的发展小趣事

Hirose Electric公司电子行业的五个发展故事

1. 连接器技术的创新与多样化

Hirose Electric自创立以来,便以连接器技术的不断创新而著称。在过去的70多年里,该公司不断推出适应市场需求的连接器产品,从最初的简单连接器发展到如今涵盖工业、通讯、消费类电子、电脑及汽车等多个领域的复杂连接器解决方案。例如,Hirose开发了多种类型的RF、同轴、板对板、线对板、圆形、MicroUSB、FPC/FFC等连接器,这些产品不仅提升了设备的连接性能,还满足了市场对高质量、高效率连接方案的需求。

2. 全球化战略与市场拓展

为了更好地服务全球客户,Hirose Electric实施了积极的全球化战略。公司在全球范围内建立了多个生产基地和销售网络,包括在中国上海、深圳和北京设立的分支机构,以及在其他国家和地区的代表处。这些机构的设立不仅缩短了与客户之间的距离,还提升了供应链的灵活性和响应速度。例如,Hirose通过在中国市场的深耕,不仅扩大了其在中国市场的份额,还为中国电子行业的发展提供了有力支持。

3. 环保型连接器的研发与推广

随着全球对环境保护意识的增强,Hirose Electric也积极投身于环保型连接器的研发与推广中。公司致力于生产同轴连接器、FFC/FPC连接器以及单排和双排等环保型连接器,这些产品在满足性能要求的同时,还减少了生产过程中的环境污染。Hirose通过采用先进的生产工艺和材料,确保连接器的制造过程符合环保标准,赢得了业界的广泛赞誉。

4. 与分销商的紧密合作

Hirose Electric深知与分销商合作的重要性,因此与全球多家知名分销商建立了长期稳定的合作关系。这些分销商不仅为Hirose的产品提供了广泛的销售渠道,还通过提供专业的技术支持和客户服务,帮助Hirose更好地满足客户需求。例如,贸泽电子作为Hirose的重要分销商之一,凭借其强大的供应链能力和专业的技术团队,为Hirose的产品在全球范围内的推广和销售提供了有力支持。

5. 产品系列的持续升级与扩展

为了保持市场竞争力,Hirose Electric不断对其产品系列进行升级和扩展。例如,公司近期将DF40系列连接器的高度范围从4毫米扩展到7毫米,以满足不同产品设计对连接器高度的需求。这一升级不仅提升了DF40系列连接器的灵活性,还进一步巩固了Hirose在连接器市场的领先地位。此外,Hirose还不断推出新的连接器产品,如TF07V系列FPC/FFC连接器,这些产品以其卓越的性能和可靠性赢得了市场的广泛认可。

Davicom公司的发展小趣事

Davicom公司在成立之初就面临着电子行业中模拟与数字技术的融合挑战。公司凭借其强大的研发团队,成功开发出全球首款将模拟与数字技术完美结合的嵌入式以太网络IC,这一突破性的技术不仅解决了当时行业内的技术难题,也为Davicom赢得了市场先机。

优先(苏州)半导体公司的发展小趣事

东微半导是一家在苏州扎根14余年的半导体公司,致力于自主研发和生产功率半导体核心器件。在充电桩产业快速发展的背景下,东微半导率先量产国内首款自主研发充电桩用功率半导体核心器件,打破了国外厂商的垄断地位。公司经过多年的自主研发,获得了创新结构的高压超级结技术的专利,使MOSFET场效晶体管的电能转换效率提升,具有动态损耗小、发热量低的优点。经客户端实测,整体性能达到了国际一流水平,现已出口至韩国、日本和德国等国际市场。

Britool Expert公司的发展小趣事

宝士曼第三代半导体研发生产项目位于苏州东山大道旁,占地50亩,计划建设生产、研发、办公等楼宇。项目整体将分二期建成,总建筑面积约70000平方米。已经封顶的4号楼建筑面积超11600平方米,主要用于第三代半导体器件专用封装设备的研发生产。在施工过程中,宝士曼对环保和施工细节提出了更高的要求,要求地面每5平方米的高度误差要小于3毫米,并在施工中做到“工完场清”,最大程度减少对今后生产的影响。这种对细节的严格要求体现了宝士曼对产品质量和环保责任的重视。

FDK AMERICA公司的发展小趣事

在竞争激烈的电子市场中,FDK AMERICA公司始终坚持品质至上的原则。公司严格控制产品质量,从原材料采购到生产流程再到售后服务,每一个环节都力求做到精益求精。这种对品质的执着追求赢得了客户的信赖,也为公司树立了良好的品牌形象。

Cal Test Electronics公司的发展小趣事

Cal Test Electronics公司成立于1995年,当时正值电子配件和测试产品市场的快速发展期。创始人凭借对电子行业的深刻理解和敏锐的市场洞察力,决定专注于这一领域。初创时期,公司面临着资金短缺、市场竞争激烈等诸多挑战,但创始人带领团队通过技术创新和成本控制,逐步在市场上站稳脚跟。他们不断研发出符合市场需求的高品质产品,赢得了客户的信任和支持。

问答坊 | AI 解惑

梦幻五环如何发光

焰火渐渐熄灭,却在地上聚集出了一个奥运五环的标志。这个标志像是吸引了附近的火星,越来越亮,后来更是缓缓升上了半空——奥运开幕式上的这段表演几乎只能用“梦幻”来形容。像网友们评价的那样,这是一个富有冲击力和想象力的表演项目。那么,这 ...…

查看全部问答>

电子技术视频教程

714电子实验室下载资源整理,提供大量电子技术视频教程,大型EDA软件和教程等下载。…

查看全部问答>

急!安装凌华采集卡、控制卡 出现的问题

跪求高手指点:    在安装凌华采集卡驱动时,系统提示:If your drivers DO NOT perform DMA and INTERUPT Operation ,                         & ...…

查看全部问答>

CORTEX-M3启动文件

昨天参加了MCUDAY 研讨会,得到一个消息是Cortex-M3启动文件可以用C语言编写,不知论坛的朋友们有谁有编写启动文件的经验,给小弟介绍一下。…

查看全部问答>

关于数据采集卡的问题

   本人新做一个有关数据采集的项目,问些比较菜的问题~!!  见笑啊    数据采集卡是12位的,用256k的频率进行数据采集,fifo缓冲区是8k*16bit。    我想知道这个缓冲区能存多少个数,缓冲区存满需要多 ...…

查看全部问答>

如何用LED灯闪烁频率不同表现系统工作状态

现在有一个ARM7系统,想用LED灯闪烁频率不同来表示系统的工作状态。该LED灯通过一个GPIO来控制,谁能给一个思路? 谢谢…

查看全部问答>

计算器如何运算1+1=2

就拿我们现实中普通的计数器来说吧,当我按下1键后,在它内部会产生什么情况?难道会产生一股电流?这股电流如何把1这个信息存储在内部某个元件上啊?这个元件是如何存储它的啊?我需要详细的了解最最底层的原理啊,硬件是如何识别0和1的?如何存储 ...…

查看全部问答>

关于三星Armv4-2410ep教学开发板上串口的问题

各位大师们好     我现在在三星Armv4-2410ep教学开发板上做串口通信的开发。我是在Windows Ce 4.2的平台下作的。台子上的Serial 0,我可以轻松搞定,可是Serial 2我怎么调也调不成功?这是为什么?     答案正确,一定给分 ...…

查看全部问答>

请问evc中如何快速获取一个大文件的总行数?

文件比较大,怎样才能快速获取它的总行数,总不能一行一行的加吧。请各位高手指教!…

查看全部问答>

ARM,FPGA学习群QQ:37392778,有高级工程师指导做项目,想学习者加入

想学习ARM,FPGA,相关开发的,有工程师指导,现有开发项目,可长期指导…

查看全部问答>