历史上的今天
返回首页

历史上的今天

今天是:2024年12月10日(星期二)

正在发生

2021年12月10日 | 行胜于言,下一代国产的GPU风华正茂

2021-12-10 来源:爱集微

集微网消息,几年前,AMD、高通和英特尔相继进入了人工智能领域,面对人工智能芯片领域已经被大公司固守的局面,“皮衣教主”黄仁勋对媒体说,如果这个市场跟产业都已经发展得足够好了,那我们为什么还要浪费才能,在别人已经做得足够好的事情上?

几年后,当计算需求起飞、中美科技博弈,GPU国产化需求日益紧迫,众多来自英伟达、AMD等巨头的资深华人专家回国纷纷创立国产GPU团队,并在短时间内就凭借PPT斩获巨额融资。面对黄教主固守的GPU城池,谁又将是新的“英伟达”冲击者?最近,芯动云计算总裁敖海也穿上一件皮衣,吹响了冲锋的号角。然而,首款国产高性能4K级显卡GPU芯片“风华1号”发布的背后,是众多亟待解决的技术和产业链生态难题。


打造一颗GPU有多难?

数据显示,2020年全球GPU市场规模达254.1亿美元,预计2027年将达到1853.1亿美元,年均复合增长率高达32.82%。全球GPU同样呈现寡头垄断的格局,在传统GPU市场,排名前三的英伟达、AMD、英特尔的营收几乎垄断整个GPU行业的销售;在手机和平板等移动GPU市场,联发科、海思麒麟和三星Exynos的GPU设计主要基于Arm Mali GPU或Imagination PowerVR架构,而高通骁龙Adreno和苹果A系列则采用自研架构。

当游戏、数据中心、自动驾驶、矿机、VR/AR、AI等领域对算力的迫切需求与日俱增,算力将成为大数据时代的核心,GPU不仅为个人电脑、服务器和移动设备进行各种图形处理工作,还因人工智能的兴起,在科学计算、自动驾驶、智能分析、密码破解、图像识别、大数据、金融交易等主流云计算领域广为应用,地位水涨船高。但国产GPU研发已经进行了多年,何以至今未取得较大的突破?

芯动科技工程副总毛鸣明指出,GPU是用于加速计算机三维图形处理渲染过程的专门芯片,需要同时处理多个图元上的多个像素点,GPU的架构具有多个计算核可以对同一个指令用不同的数据并行计算,从而大大提高了GPU的性能。“虽然GPU中的指令集比起CPU要简单,但是计算核的数量比CPU多很多倍,所以GPU执行可并行度高的计算时会大幅度提高计算效率。一般GPU芯片中的逻辑门数量会比CPU多十倍以上,这是GPU系统复杂的原因之一。”

并且,GPU不止是可以做数学运算的计算核,还要实现复杂的三维图形实时处理。“当你在玩游戏时屏幕上每一个像素的颜色都是经过GPU上百次的计算产生的,其架构设计也要不断改进更新来适应新的市场需求。这也是GPU系统复杂的原因之一。”

除了技术上的难点,GPU开发难的一个重要因素是人才稀缺,同时需要数年或更长时间投入以及几亿到十亿以上的资金支持。全球GPU芯片领域从几何物理渲染到计算引擎领域的知名专家、芯动首席算法科学家杨喜乐博士也在演讲中提到,渲染流程涉及大量图形学、数学运算,需要有数学及逻辑分析能力,与CPU类似的ALU算术逻辑技术单元,则需要计算机架构设计知识。人才缺乏是一大挑战,大部分GPU架构,渲染流程及硬件设计在大学课程里没有讲授,资深GPU工程师资源有限,这不仅仅是在中国,全球的现状均是如此。

因此,准确的说应该是GPU的系统设计更为复杂,系统庞大,技术涉及面广,需要一个技术积累过程。这对于基础本就薄弱的国内芯片设计产业来说更是雪上加霜。


GPU的国产化具体面临着哪些困境?芯动科技SoC体系架构师何颖分别从技术和生态两方面进行了分析。何颖指出,首先在体系架构方面,需要对GPU现代渲染架构完全掌握,并拥有持续迭代的能力。需要具备最先进工艺节点的SoC设计的成熟经验,熟悉多核系统设计、性能优化和工艺调优等;其次在IP方面,GPU的性能发挥离不开高带宽,因此需要多种成熟可靠、可定制、可升级的高性能IP,比如PCIe4/5、GDDR6/GDDR6X、HBM2、DDR5/LPDDR5、Chiplet、HDMI2.1、DP/eDP 1.4等等;在团队方面,需要具备多学科领域的专业团队协作,包括但不限于图形学、算法、硬件架构、软件架构、系统架构、硬件数字开发、验证、模拟开发、后端、版图、系统、软件、驱动、测试、机械结构、生产等等众多领域的专家。

其次在生态方面,一方面构建软件生态需要强大的软件开发团队,以适配不断快速发展的API和应用侧需求,包括Windows、Linux、Android,DirectX、Vulkan、OpenGL/OpenGL ES/OpenCL/TensorFlow等;另一方面需要适为不同客户量身定制应不同行业、不同应用场景的芯片,包括国产桌面/服务器、移动平台,显示设备、汽车/自动驾驶、VR/AR、游戏娱乐等各种应用。

毛鸣明表示,“国产GPU发展到今天,可以集全国力量打造一个GPU软件团队,却很难组建GPU硬件团队,一些核心的模块基本都没有在中国设计过,所以我们现在还不具备相应的基础,但是可以在发展的过程中不断探索、学习。国产GPU在起步阶段先求生存,兼容现有生态更容易发展;长期还是要摆脱兼容思路,站稳脚跟后发展自有的核心技术。”

“风华1号”横空出世的背后

相比于国内一些高调曝光动态的GPU创业团队,芯动科技的“风华1号”要低调得多,11月中旬爆出回片测试成功,月底就正式亮相了。临出发前,敖海特意翻出一件压箱底的皮夹克穿上,可见他朝着“黄教主”的目标又近了一步。“GPU门槛这么高必然有它的原因,但是我们今天如果不做,就会永远被垄断。”敖海表示,“做GPU,我们是认真的。现在我们迈出了这一步,迟早有一天可以让大家很流畅地使用国产的GPU,可以发微博说‘我用了国产GPU很爽,能够工作、能够娱乐、能够设计’。现在是‘风华1号’面世,随着风华系列的迭代,相信芯动科技终将实现这个目标。”

芯动科技敢于啃GPU这块“硬骨头”的底气来自哪里?毛鸣明解释,GPU涉及到众多的核心模块和I/O,在这方面芯动科技长期深耕核心技术,积累了200多次先进工艺流片经验,与台积电、三星、格芯、中芯国际、联电、英特尔、上海华力等全球领先的晶圆代工和封测厂商结成了良好的合作伙伴关系,在长期研发中积累了GPU所需要的全套高端IP、图形芯片内核定制技术和先进工艺经验,包括GDDR6/6X、HBM2e/3、INNOLINK Chiplet等全自主国产高端技术,因此走向GPU研发是多年技术积累厚积薄发的必然结果。

芯动科技决心研发GPU,并为此组建了强大的GPU研发团队:例如首席算法科学家杨喜乐博士毕业之后,在英国Imagination公司作为顶级架构师,25年来一直从事GPU核心图形引擎的建模和创新,是全球GPU芯片领域从几何物理渲染到计算引擎领域的知名专家,持有GPU 3D计算机图形学核心领域顶级图形专利共计125项,目前Imagination、苹果等公司最新的核心GPU产品的设计、优化和迭代都离不开她的专利和算法;此外还有DX团队负责人章涛是前AMD的图形框架开发的领军人物等等。据毛鸣明透露,芯动科技深度参与GPU研发的核心人员达到200多人,加上其他部门参与研发的则达到了400多人,整个公司60~70%的研发资源都在支持GPU产品线。“国内近几年招募回来的GPU人才,有三分之二在芯动科技。”

人才团队搭建完成后,最底层的GPU架构技术是一个问题。毛鸣明表示,GPU架构的复杂度极高,如果架构从零开始设计周期太长,并且涉及众多专利,因此芯动科技选择“站在巨人的肩膀上”。去年10月,芯动科技宣布与Imagination达成合作,将采用多晶粒封装芯片(Chiplet)和GDDR6高速显存等SoC创新技术,基于Imagination全新顶配BXT多核架构,开发“风华”系列GPU,并且在架构授权上进行自研演进,这是自主可控的。

据悉,芯动科技与Imagination的合作是与苹果一样的架构授权,而不仅仅是某一个IP的授权。如何把这个架构做成最终的GPU,不是简单的堆砌核和各种IP就行了,如何把他们有机地利用、调用起来,如何通讯都要付出大量努力。何颖强调,芯动在这个初始架构上探索了很多自己的方案,包括自研的Cache一致性Innolink Chiplet技术,内置国产物理不可克隆iUnique Security PUF信息安全加密技术,提升数据安全和算力抗攻击性等等。“最主要解决的问题是打破算力的限制,把我们的硬件架构拓展到能够支持更多的客户,或者更重的计算性能的场景上,并解决初始架构一些天然的限制或者不能解决的问题,这样才能真正地完成迭代,把原生移动端的架构拓展到高性能计算、云计算等场景。”

芯动科技之所以选择IMG B系列GPU架构,是因为它具有令人印象深刻的可扩展性,以及能够提供高达6 TFLOPS(每秒万亿次浮点运算)的计算能力;同时,与前几代产品相比,其功耗降低了多达30%,面积缩减了25%,并且还增加了Imagination全新的多核技术。这在系统级芯片(SoC)和多芯片封装中,可更加灵活地控制每个独立内核的配置和布局。该IP的多功能性意味着它可以在此基础上创建多个平台,从而可以从移动端扩展到云端级解决方案。

“得益于Imagination BXT架构的多核可扩展性,芯动能够为我们的客户打造量身定制、融合图形和智能计算的显卡芯片解决方案,以满足高端桌面和数据中心的需求。而且该架构是基于安卓开发的原生架构,风华GPU在安卓云游戏上也会更具备优势,跟Arm、X86服务器平台都能适配,对各种Linux、安卓和国产各种操作系统都能支持。”毛鸣明表示,“当然,站在巨人的肩膀上能成功的前提也必须自身够硬。凭借芯动在GDDR6/6X高速存储、缓存一致的Chiplet创新、以及高性能多媒体处理器优化等方面的坚实积累,进而去开发独立的、支持PCI-E规格的GPU显卡芯片是水到渠成的事情。”


GPU
推荐阅读

史海拾趣

Bellnix Co Ltd公司的发展小趣事

在电子行业竞争日益激烈的背景下,Bellnix意识到成本控制的重要性。公司开始着手优化供应链,通过与供应商建立长期合作关系、实行集中采购等方式,降低采购成本。同时,公司还引入先进的生产管理系统,提高生产效率,减少浪费。这些措施有效地降低了产品成本,使Bellnix在市场上更具竞争力。

General Diode Corp公司的发展小趣事
检查冷却系统是否正常运行,清理散热片上的灰尘和杂物;若冷却风扇损坏,则需更换新的风扇。
FRONTIER公司的发展小趣事

背景:假设FRONTIER公司也涉足绿色能源领域。

发展故事:面对全球气候变化和环境问题的日益严峻,FRONTIER公司积极响应可持续发展号召,开始布局绿色能源产业。公司通过引进先进的光伏技术、储能技术和智能电网技术,成功打造了一系列绿色能源解决方案。这些解决方案不仅有效降低了企业的能耗和碳排放量,还为全球能源转型和环境保护做出了积极贡献。FRONTIER的绿色转型不仅赢得了市场的认可和支持,也为公司未来的可持续发展奠定了坚实基础。

EMBEST公司的发展小趣事

在XXXX年12月,EMBEST成为了Microsoft银牌合作伙伴。这一荣誉的获得标志着EMBEST在软件开发和服务方面得到了业界的广泛认可。作为Microsoft银牌合作伙伴,EMBEST将能够更好地利用Microsoft的技术和资源,为客户提供更优质的服务和解决方案。

Array Microsystems Inc公司的发展小趣事

Array Microsystems Inc公司自创立之初,便专注于阵列传感器技术的研发。在成立初期,公司面临资金短缺和技术瓶颈的双重挑战。然而,通过不懈的努力和持续的技术创新,Array Microsystems Inc成功研发出了一款高灵敏度、低功耗的阵列传感器。这一突破性的技术不仅填补了市场的空白,还为公司带来了可观的利润。随着产品的推广和应用,Array Microsystems Inc逐渐在电子行业中崭露头角。

CHONGQING PINGYANG ELECTRONICS CO.,LTD.公司的发展小趣事

2005年,重庆平洋电子有限公司迎来了一个重要的合作机会。经过严格的筛选和谈判,公司与海尔集团达成了先期采购协议,成为海尔集团在重庆市唯一一家免第三方认证的企业。这一合作不仅为公司带来了稳定的订单和收益,还进一步提升了公司的品牌影响力和市场竞争力。

问答坊 | AI 解惑

请教:关于RX3400调试问题

我做的一个带RX3400模块的产品一放上DVD(铁壳的),RX3400模块就会输出很多杂波,接收到另一个433MHZ模块发出来的数据完全变形,解不出来,而不放于DVD上数据完全正常,究竟是什么造成的?因为公司要求把433MHZ天线(我用大约17CM的单股线)内置于产品中,所 ...…

查看全部问答>

请问用C8051F410可以产生20KHZ左右的三角波吗?

本人最近初学C8051F410 请问各位单片机高手 用C8051F410可以产生20KHZ左右的三角波吗?…

查看全部问答>

关于PCB设计,提个建议

在做PCB设计的时候,建议把器件标号重新排列,按照PCB板子上器件出现的顺序(比如从左到右,从上到下,从正面到反面这样的顺序)。这样做的好处就是:方便装配。…

查看全部问答>

6410 新做的平台,烧录出错

花了一个星期时间做硬件,而且也花了我,5000多块钱,打样PCB费,加,500块的材料费,昨天兴高采列的,拿到板子,贴片,接上电源,串口,准备读卡器,烧录程序,(我自己有华天正的开发板,按一模一样的硬件,用一模一样的烧录法),一启动,按空格,进入界面,按s ,选0, ...…

查看全部问答>

齿套设计及夹具

要详细内容>>>>>>>>....…

查看全部问答>

关于硬盘驱动的问题!

请哪位高手能帮我解释一下硬盘驱动的原理。最近我要写一份硬盘驱动的详细设计文档,不过硬盘这里我还不是很清楚。    多谢了!…

查看全部问答>

连接LM3S9B96后出现CPU is not halted!

我的板子就是没有接RST(15PIN),而且Jlink的固件也更新为4.26了。…

查看全部问答>

LM3S6911以太网发送后,是否判断完成?有这个功能吗?

各位用过这个功能吗? LM3S6911以太网发送后,是否判断完成?有这个功能吗? 类似于UARTBUSY这个功能的啊! 谢谢哦!…

查看全部问答>

大家都用什么FPGA?

本帖最后由 paulhyde 于 2014-9-15 04:11 编辑 因为做仪器仪表,经常需要什么X-Y方式显示的,之前一直在用学校的开发板DE0,但是听说什么商业化的成品模块不能使用,不知道这个算不算呢?  …

查看全部问答>

关于单片机的位数

LPC2387 - Single-chip 16-bit/32-bit microcontrollers; 512 kB flash with ISP/IAP, Ethernet, USB 2.0, CAN, and 10-bit ADC/DAC - NXP Semiconductors 看到2387芯片手册上这样写,他到底是16位还是32位啊?还有32位比16位的处理速度快么?…

查看全部问答>