历史上的今天
返回首页

历史上的今天

今天是:2024年12月15日(星期日)

2021年12月15日 | ​OPPO推出NPU,迎接计算影像时代——情理之中与意料之外

2021-12-15 来源:EEWORLD

从媒体爆料OPPO造芯,到今天OPPO正式发布首款自研芯片,至今已过去接近两年。

日前在OPPO INNO DAY 2021上,OPPO发布了首个代号为MariSilicon X的影像专用6nm NPU,算是对两年造芯历程的一个小总结。


OPPO推出NPU,迎接计算影像时代——情理之中与意料之外


根据官方信息描述,MariSilicon X具有极致功耗比、行业领先的HDR、针对RAW的20bit快速计算以及支持定制的RGBW Sensor优化四大方面特色。


看到这则新闻后,不知道您是什么感觉。对于我来说,起初会觉得在情理之中,毕竟截至目前,几大手机商都已或多或少推出了自行开发的芯片。


但是通过介绍参数的性能,又使我感到震惊,全球范围内推出EUV 6nm制程NPU的企业并不算多,况且这还是OPPO第一个量产芯片。就在OPPO公布一系列详细的芯片指标之后,让我回忆起了2017年,那一年,海思首款集成NPU的10nm SoC麒麟970问世,拉开了AI在移动平台上的帷幕。而现在即将迎来的,是移动平台计算的下一波浪潮——AI计算影像。


手机厂商自研芯片是情理之中


近年来,无论是苹果、谷歌还是华为等手机商,都在自行开发SoC,其中最显著的特性就是增加了NPU,利用AI加速器提升应用性能并降低功耗。以往,计算任务是通用的,大多数任务都依赖于标准 CPU/GPU/VPU或者ISP/DSP等。人工智能(AI)和机器学习 (ML) 的飞跃式发展带来了独特的计算要求,传统的或者说通用的神经网络加速器(CNN)可能无法有效加速个性化的AI 任务,因此业界不仅需要用于处理 AI/ML 工作流的硬件,还需要专门针对特定 ML 模型优化的硬件。这些差异化需求很难依赖英特尔或者高通来快速获取。


比如苹果和谷歌的手机中可能都有语音助手,但是他们使用的底层ML模型和架构可能会有很大不同,通用处理器无法优化。这些公司可以针对其特定的软件应用程序和架构微调他们的芯片,从而使算法——软件——硬件三者实现完美的紧耦合。


作为中国前两大智能手机厂商,手握大量图像相关专利的OPPO,自然有推出芯片的动力和能力。


时间回到2020年2月,彼时OPPO CEO特别助理发布了一篇名为《对打造核心技术的一些思考》的内部文章,曝光了“三大计划”,分别是涉及芯片业务的“马里亚纳计划”(OPPO此次发布的MariSilicon X就是以此命名 )、涉及软件开发业务的“潘塔纳尔计划”和涉及云服务的“亚马逊计划”。


所以从那时起,一切都已在情理之中了。


手机进入计算影像时代


随着影像成为手机重要差异化的特性,被姜波称为是“计算影像探索的第一步”的MariSilicon X诞生就显得那么理所应当了——通过结合了ISP和NPU等功能,OPPO率先进入了计算影像时代。


OPPO推出NPU,迎接计算影像时代——情理之中与意料之外

OPPO芯片产品高级总监 姜波


姜波是OPPO芯片产品高级总监,于2019年到岗。此前,他曾在高通中国担任首个智能手机SoC产品经理,经历了中国智能手机的产业链爆发期。OPPO则是姜波加盟的首家国内企业,而且还是一家终端厂商,这和他过往的芯片公司经历完全不同。


也正是在这两年间,通过领导芯片开发团队以及各部门协调过程中,姜波对于OPPO有了更深的了解:“作为一线终端公司,OPPO一切都是从消费者角度出发,MariSilicon X从立项开始,就是从用户场景反推出来的规格要求,这和以前在芯片公司产品开发逻辑完全不同。”


“OPPO更多是从解决用户的痛点角度出发进行垂直整合。我们有SoC算法能力、硬件设计能力、传感器及摄像头/光学模组的定制和整合能力。作为手机产业链的最重要一环,OPPO有机会也有能力做到最深度的整合和优化,而且是面向消费者的。”姜波说道。


谈及MariSilicon X的诞生原因,姜波表示,OPPO已经具有多年通用SoC平台的CV(计算机视觉)算法、AI算法的积累,但通用SoC想要达成计算影像的终极体验依然存在诸多挑战。“比如定制化的传感器,如果要与通用SoC配合,两者的开发周期不同,很难平衡;另外如果采用商用传感器,要在通用SoC上做优化,研发需要很多调整,成本和上市周期都会增加。只有将算法与芯片、软件与硬件进行紧耦合,才可以完成真正的计算影像。”


实际上不光是手机,从云计算到汽车,从IoT到工业,随着AI等技术的兴起,对于算力的需求越来越个性化,数家软硬件公司均不约而同地选择了自研芯片道路。一方面是因为确保供应链稳健,另外更重要的则是通过对核心底层技术的掌握,从而完善产品的差异化。


这一切变革,正如英伟达CEO黄仁勋在2017年时的判断:软件会吃掉世界,但AI会吃掉软件。


马里亚纳的意料之外


此前有媒体就表示OPPO的高管接受采访从来不会与“友商”做比较,而是坚持“本分”的企业文化。此次马里亚纳 X的发布,OPPO的确也是不慌不忙,错开了几大友商及SoC供应商的发布日期。


但“好饭不怕晚”,相比小米“遮遮掩掩”的澎湃C1、VIVO“背靠大树”的V1,MariSilicon X的发布更为坦率。尽管MariSilicon X的定位并不像高通、联发科新发布的to C端的旗舰SoC芯片,因此并没有公布详细的Die面积、晶体管数量等敏感信息,但姜波还是尽可能地公开了更多的芯片细节。通过这些意料之外的细节,业界有必要对OPPO的首个自研芯片刮目相看。


没有办法的办法——自研多款IP


此次发布,姜波只透露了MariSilicon X中的三个IP,分别是MariNeuro、MariLumi以及MIPI PHY。


其中MariNeuro AI计算单元是OPPO自行开发的NPU,姜波也坦言,如今很多IP供应商可以直接提供NPU,但通过评估,“没有一个NPU可以根据OPPO的场景和算法,达到最优的能效比”。


OPPO推出NPU,迎接计算影像时代——情理之中与意料之外


MariNeuro的诞生,可以使OPPO具有训练优化的底层能力,从而达到最佳用户拍照体验。并且目前CV/AI算法仍在不断迭代,选择自研NPU便可以更好地掌握主动性。


“只有通过影像专用NPU,才能解决目前ISP和通用SoC的算力不足和能效难题,这是未来影像发展的主流方向。”姜波总结道。


此外,为了解决内存墙问题,OPPO也专门为MariNeuro开发了片上内存子系统,达到万亿比特/秒(Tb/s)级的传输速率。而除了片上存储之外,MariSilicon X还合封了256Mb的LPDDR4X作为独立DDR带宽,从而提升系统整体的内存吞吐率。


MariLumi则是OPPO自研的ISP Pipeline IP。与NPU配合,实现真正的实时计算影像。

除了以上两个重要IP之外,OPPO还自研了诸多其他IP,比如MIPI接口等。姜波解释道,自行开发的根源是OPPO采用了RGBW的传感器,需要用到两路RAW Pipeline,因此对MIPI总线的峰值吞吐量有较高要求,而OPPO无法在市场上找到对标的IP,因此只得选择自行开发。


姜波强调,所有IP都自行开发显然不现实,OPPO也有选择商用IP的大原则,就是需要满足极致体验,比如上述提到的三款产品,第三方IP无法达到要求,才会自行开发解决。


追求极致化——选择台积电6nm EVU工艺


MariSilicon X采用了台积电6nm工艺,对此姜波也承认,相比6nm而言,12nm的研发周期、IP可获取性以及流片验证会更加友好。但是OPPO通过仿真评估,认为只有6nm可以同时满足性能及功耗上的要求。


OPPO推出NPU,迎接计算影像时代——情理之中与意料之外


正是在MariSilicon X立项之前的2019年,台积电宣布推出EUV技术的N6(6nm)制造工艺,与采用DUV的N7(7nm)相比,N6提高了18%的逻辑密度,性能和功耗不变,并且使用相同的设计规则,使得从IP到工具等生态系统可以继续沿用。而根据台积电的近期公告,其计划在 2021 年第四季度用 6nm 取代 48-50% 的 7nm产能,显然直接立项在6nm,可以实现更快的商业化。


目前采用最先进制程的芯片企业几乎都是SoC或CPU等,MariSilicon X不计成本地选择了6nm技术,也使其成为手机中仅次于SoC的选择EUV技术的芯片。


根据姜波的介绍,目前OPPO拥有完整的芯片开发团队,包括设计、验证、后端集成等。也正是因为全流程都在自己掌控中,使得OPPO首个先进制程的芯片取得了一次流片成功的成绩,并且夸张到“没有任何小的修改或Debug”。


整个开发过程非常紧凑,尤其是考虑到OPPO还自研了多款IP的情况下,并没有流片测试验证的时间。况且移动应用有功耗的约束,再加上先进的制程工艺,一次成功离不开团队所有人的经验和努力,甚至还有一点点的运气。在姜波看来,从立项到点亮的整个过程,简直是“走了两年的钢丝”。


MariSilicon X的四大特色解析


有了IP,有了先进的EUV代工,有了全流程的设计人才,那么MariSilicon X究竟实现了那些突破?姜波给出了四个方向。


OPPO推出NPU,迎接计算影像时代——情理之中与意料之外


极致能耗比:借助MariNeuro NPU,MariSilicon X实现了18 TOPS的算力以及11.6 TOPS/W的算力功耗比。18 TOPS的算力相比iPhone的A15增加了20%,但这不是重点。正如姜波所说,手机NPU设计的难点不在算力,而是在效率上。更重要的是能效评估不是执行通用的神经网络算法,而是执行真正应用场景下的算法,只有真实数值才最有参考价值。


对此姜波给出了实际数值,比如在FindX3 Pro中,使用了骁龙888处理器,在运行OPPO AI降噪算法只能实现2 fps的处理速度,这意味着无法支持AI降噪的视频拍摄,并且功耗高达1.7W。而在MariNeuro NPU上,可以在800mW的功耗约束下实现40 fps的4K AI降噪视频拍摄。


行业领先的HDR:借助于MariLumi ISP Pipeline IP,实现了20bit带宽、120dB动态范围的图像处理能力,可以实现更好的HDR。就在数天前,高通和联发科陆续宣布了旗舰SoC,都是采用了18bit的ISP,更高的带宽意味着更高的数据吞吐率、更多的色彩信息以及更好的动态范围。


通过简单计算,20-bit的ISP可以实现1,048,576个亮度范围,而18-bit只能实现262,114个。也正是如此,MariLumi可以实现4倍于现有旗舰SoC的动态范围。实测结果也显示,MariSilicon X在4k场景下,亮部是在8dB,暗部为12dB,也就是说图像暗部的信噪比可以实现4倍的有效提升。


20bit RAW实时计算:除了此前提到的4倍于现有旗舰SoC的HDR之外,MariSilicon X的强大性能可确保芯片具有实时RAW域的降噪、HDR等处理能力,相比传统SoC基于YUV域的处理,可以更好地保存照片或视频的原始信息,实现真正所见即所得的体验。


与定制RGBW传感器紧耦合:RGBW技术并不是新技术,早期的技术实践简单理解就是将其中一个G(绿光)替换为W(白光),虽然提升了感光度但是由于信号串扰、猜色算法准确性等限制,会出现偏色情况。


不久前OPPO曾与SONY合作,将自研四合一像素聚合等一系列算法直接写入传感器硬件,通过新型的定制化像素排列方案保证猜色精确度和成像质量。如今,借助MariSilicon X,可实现传感器的进一步耦合,从而最大化传感器的能力。正如姜波此前表述,两路的RAW Pipeline其中一路处理RGGB,另外一路则专门负责处理白光通道。通过两路并行处理,使得成像信噪比提升了8.6dB。同时,针对纹理细节处理,Pipeline则通过超采样方式,提升了70%的解析力。


计算影像的未来十年


作为引领未来十年计算影像市场的开山之作,MariSilicon X被寄予了厚望。姜波表示,目前计算影像市场的很多算法还未成熟,因此OPPO才会开发出专用的影像NPU去探索这一市场。毕竟手机受制于外形、尺寸等限制,传感器不能无限增大,如果继续提升影像品质的话,通过提升计算影像的算力是必经之路。


从结果来看,针对视频的实时处理场景,借助MariSilicon X,OPPO可以同时实现4K+20bit RAW+AI+Ultra HDR规格夜景视频,已然打破了手机计算影像算力的新极限。


珠穆朗玛是大家看得见的巅峰,而马里亚纳作为全球最深的海沟,代表的则是隐藏更深的无人区,“马里亚纳计划”亦是如此。


一切为提升用户体验的支撑,都来源于OPPO对无人区的不断探索。


推荐阅读

史海拾趣

ELMEC Technology Of America Inc公司的发展小趣事

随着产品的不断完善,ELMEC开始考虑如何进一步拓展市场。然而,国际市场的竞争异常激烈,ELMEC的产品面临着来自各大跨国公司的挑战。为了打开市场,李明带领团队深入调研,了解客户需求,不断优化产品性能。同时,他们还积极参加各类国际展会,与潜在客户建立联系。经过几年的努力,ELMEC的产品逐渐获得了市场的认可,销售额也稳步增长。

Broadcom(博通)公司的发展小趣事

博通在有线和无线通信半导体领域一直保持着技术创新的领先地位。公司不断投入研发,推出了一系列具有竞争力的产品,包括宽带通信芯片、无线局域网芯片组等。这些产品的成功应用,不仅提升了博通的市场地位,也为整个电子行业的发展做出了重要贡献。

Electronic-Bauteile Goerlitz GmbH公司的发展小趣事

Electronic-Bauteile Goerlitz GmbH公司自创立之初,就以其独特的技术创新为核心竞争力。公司不断投入研发资源,开发出了一系列具有竞争力的电子产品部件。这些部件以其高性能、低功耗和可靠性,赢得了市场的广泛认可。公司通过与高校和研究机构的合作,不断引进新技术,推动产品升级换代,确保了其在行业中的领先地位。

Analogic Corporation公司的发展小趣事

随着公司规模的扩大,Electronic-Bauteile Goerlitz GmbH公司意识到供应链管理的重要性。公司通过优化供应链管理,实现了原材料采购、生产、物流等各个环节的协同作业。这不仅提高了生产效率,降低了成本,还确保了产品质量的稳定性和交货期的准确性。这些努力使得公司在竞争激烈的市场中保持了良好的竞争力。

Aristo-Craft/ L M P Inc公司的发展小趣事

品质是公司的生命线。Aristo-Craft/L M P Inc一直注重品质管理,从原材料采购到生产过程的每一个环节都进行严格把控。公司建立了完善的质量管理体系,并通过了多项国际质量认证。同时,公司还注重品牌建设,通过广告宣传、参加行业活动等方式提高品牌知名度和美誉度。

General Cable公司的发展小趣事
内部集成振荡器与定时发生器、地址产生电路、控制逻辑电路和编码产生电路等,最多可提供12位地址或6位数据编码,提供高达531441(3^12)种码,适用于复杂的遥控系统。

问答坊 | AI 解惑

将RVDS中的工程移植到RealView MDK

将RVDS中的工程移植到RealView MDK说明文档 请点击链接:http://arm.embedinfo.com/BBS/dispbbs.asp?boardid=3&Id=219…

查看全部问答>

AT89C51控制SAA1042驱动步进电机

AT89C51控制SAA1042驱动步进电机,当怎么调电机总是转不起来,不值是怎么回事? 麻烦大侠们指点指点,有程序的更好。…

查看全部问答>

大学生智能汽车设计整本书课件(超级推荐)

本帖最后由 paulhyde 于 2014-9-15 03:51 编辑 这是《大学生智能汽车设计》整本书的课件,内容很全面,希望对大家有所帮助~~~以下是目录 第1章 智能汽车设计导论 1.1 智能汽车 1.1.1 智能汽车设计的意义及研究内容 1.1.2 智能汽车设计的技术关 ...…

查看全部问答>

Crossing clock domains - Signal

A signal to another clock domain Let\'s say a signal from clkA domain is needed in clkB domain. It needs to be \"synchronized\" to clkB domain, so we want to build a \"synchronizer\" design, which takes a signal from clkA domain, ...…

查看全部问答>

求HP打印机PCL语言手册

我正在开发一个Windows Mobile的打印程序,想直接使用PCL来打印,但找不到PCL手册。…

查看全部问答>

wince下红外驱动

有人在wince下做过红外驱动吗?能提供一些资料吗?要有源码就更好了。…

查看全部问答>

英蓓特STM32V100可以SWD调试了

                                 如果要SWD调试,那么要用外部仿真器,然后把子板下的244去掉,把板子的JP3 JP7 JP9 JP13 JP10 ...…

查看全部问答>

基于DS18B20和四位LED的温度自动控制系统

基于DS18B20和四位LED的温度自动控制系统 1:采用DS18B20采集温度,精度在0.1度。 2:采用89S52芯片。 3:采用四位共阳LED数码显示,亮度高。 4:可以设定控制温度,达到设定值继电器A工作,低于设定值继电器A断开。 5:超温报警,超过设定温 ...…

查看全部问答>

用ATMEGA16控制NRF905进行简单的收发,调了一周了,希望哪位大侠能帮俺播开云雾!!

发送段代码: #include <iom16v.h>#include <macros.h>#define uint  unsigned int#define uchar unsigned char#define   Low_TX_EN      PORTD&=~(1 << PD7)#define   High ...…

查看全部问答>

求insight ME-52单片机的模拟环境运行软件

有10年没有怎么摸这个东西了,最近公司突然有了一个产品需要用到这个东西,硬件CPU是AT89C52,我手里有个10年前买的Insignt ME-52,但找不到运行环境的软件了.恳求专家指点,那里能够下载到这个软件?…

查看全部问答>