历史上的今天
返回首页

历史上的今天

今天是:2025年06月28日(星期六)

2019年06月28日 | 清微智能全球首款可重构超低功耗语音AI芯片开始量产

2019-06-28 来源: 心缘 智东西

最近,脱胎于清华大学微电子所Thinker团队的AI芯片创企清微智能迎来新进展:


全球首款可重构超低功耗语音人工智能(AI)芯片TX210已实现规模化量产,于6月中旬正式交付市场,而此时清微智能距成立还不到1年。


这是一款语音SoC芯片,针对手机、可穿戴设备、智能家居等多种应用场景的智能终端产品开发,工作功耗不超过2mW,语音活动检测(VAD)功耗小于100uW,延时不到10ms。


清微智能,拆开来,就是清华、微电子、人工智能,也就代表了这家公司的定位——专注可重构计算芯片,提供以端侧为基础,并向云侧延伸的芯片产品及解决方案。


其核心技术团队来自清华微电子学研究所(以下简称微电子所),其芯片所采用的架构正是中国芯片技术学术领军者——中国半导体行业协会IC设计分会理事长、清华大学微电子所所长魏少军教授所带领研发的可重构计算架构。


谋定而后动,脱胎清华微电子系


清微智能成立于2018年7月,其技术脱胎于清华大学微电子学Thinker团队。


如今的芯片产业,放眼望去,数不胜数的国内外半导体企业高管从清华大学电子工程系和微电子所走出。


而微电子所的灵魂人物——现任清华大学微电子研究所所长、中国半导体行业协会IC设计分会理事长魏少军教授,在过去的十几年间一直深耕于一项核心技术——“软件定义芯片”,即可重构计算芯片技术。


意识到可重构计算架构对于芯片算力提升和功耗降低的巨大优势,2006年,魏少军教授牵头成立了清华大学可重构计算研究团队,而这支团队后来成为清微智能的核心。


2015年,AI复兴,对芯片运算能力产生了远高于传统芯片的要求,这个时候,沉寂了9年的可重构计算因其与AI算法契合的特性,开始重新进入“聚光灯下”。


自2016年起,基于可重构计算架构,魏少军教授团队中的清华大学微纳电子系副系主任尹首一副教授带队设计研发了4款Thinker系列的低功耗终端AI芯片,分别是实验性质的验证芯片Thinker I、人脸识别芯片Thinker II、语音识别芯片Thinker S、语音识别芯片Thinker IM。(AI芯片终极难题 被清华大学IC男神解决了!)


image.png?imageView2/2/w/550


这三款芯片的设计方案一问世,就收获了国际学术界的认可。比如Thinker-I首次出现在2017VLSI国际研讨会上时,外界评价它“突破了神经网络计算和访存瓶颈,实现了高能效多模态混合神经网络计算。”


而清微智能CEO王博的本科和硕士均在北京邮电大学计算机通信专业就读,他与清华大学Thinker团队的相识,却来自一段同学缘分。


彼时,王博还在一家云计算方案提供商工作,负责智能硬件产品,他在做一款人脸识别智能门锁时,想要找到合适的芯片,却发现市面上的高通等公司无法满足他们对能耗比等性能的需求。


尹首一副教授的大学同学是王博的高中同学,两人因此结识。


王博得知尹首一副教授在带领Thinker团队做AI芯片,看到其芯片设计方案拥有出色的能耗比,再经过深入了解他们所设计的可重构计算架构的技术,王博对这一架构的扩展性感到认可,觉得这条路线是可行的。


预测到AIoT市场将步入全面爆发期后,2018年7月,王博牵头在北京中关村成立了清微智能公司,将技术产品化,由王博任CEO,尹首一副教授为首席科学家,欧阳鹏博士任CTO和Thinker芯片主架构师。


Thinker团队原本就分为两部分,一部分是尹首一副教授带领一些博士生从事整个架构的设计和优化工作,另一部分是清华以社招形式招进来的专门负责芯片实现的工程师。


清微智能的初始技术团队主要来自Thinker团队中负责实现芯片的工程师们,约一二十人,如今其团队数量已扩展到70多人。团队成员来自清华大学、NVIDIA、Sony等知名高校和企业,在半导体行业具备多年经验。


去年第三季度,清微智能拿到百度战投领投的近亿元天使轮融资,由百度战投、分众传媒、禧筠资本、国隆资本、西子联合控股等联合投资,而新一轮融资计划也将于近期启动。


而清微智能在成立不足一年的时间,就交出了TX210语音芯片百万数量级的量产,图像芯片也将于今年12月量产,这一成就,源自清华大学十多年扎实的技术积累、200多项技术专利。


软件定义芯片:可重构计算芯片架构


在今年的全球AI芯片峰会GTIC 2019上,魏少军教授曾展示这样一张PPT。他将芯片分成三部分:第一部分是可更多编程的,如CPU;第二部分是能少量编程的,如GPU;第三部分是不能编程的,如专用芯片。


image.png?imageView2/2/w/550


除了可编程性,这些不同计算架构的主要差别在于能效。专用芯片到GPU之间有1000倍的能效差距,而1000倍是一个很重要的分界线。


魏少军教授表示,如果我们的AI芯片做不到比GPU高1000倍的能效,就不能满足人们在终端侧的需求。


传统的终端AI芯片,主要基于CPU、DSP、GPU、NPU等架构,这些架构本质属于指令驱动的计算模式,属于冯·诺依曼架构。


这些架构在具体计算过程中,面向某一特定领域,往往存在高能效和灵活性不可兼得的问题,比如华为旗舰手机中强大的麒麟芯片,就不适用于安防摄像头、智能家居等场景。

它们需要从指令存储器中加载指令并解析指令,然后指导执行单元进行计算。在数据计算中,这是一种灵活但是低效的时域计算模式。


此外,在AI芯片的研发过程中,也有团队利用单指令流多数据流(SIMD)的方式来提高数据复用,从而减少指令解析,但是SIMD面向的是同构的操作,当指令功能变换时,仍需要重复前面的过程。


image.png?imageView2/2/w/550


为了兼具高能效和可编程性,清华大学Thinker团队致力于研究的是一种无需指令驱动的计算模式,即动态可重构计算架构(CGRA,Coarse grain reconfigurable architecture),也就是上图红色区域。


它是一种非冯·诺依曼架构,简单而言,就是将软件通过不同的管道输送到硬件中来执行功能,使得芯片能够实时地根据软件/产品的需求改变功能,实现更加灵活的芯片设计。

传统的芯片需要让应用来适应架构,而CGRA架构更加灵活,能够根据数据流的特点,让软件来调整芯片的计算能力,在最合理分配和使用算力的同时,成倍节约了数据存储和传输带宽。


王博介绍说,CGRA架构适合AI、视频编解码、语音处理等计算密集型场景,但不适用于以逻辑判断为主的非计算密集型场景。


image.png?imageView2/2/w/550


CGRA基于数据流图,面向的是异构的空域计算,一次配置形成固定的电路结构,从而以接近ASIC效率反复执行,资源利用率和数据复用率高。


同时,相比专用集成电路(ASIC)方式的固定电路结构,它又可以根据应用或者算法进行电路配置,使得硬件重新形成不同的计算电路结构,具有非常强的灵活性。


image.png?imageView2/2/w/550

▲“指令驱动”的时域计算模式 v.s. “数据驱动、动态重构”的空间计算模式


以这个更低能耗和更强灵活性的架构为基础,清微智能CTO欧阳鹏透露,清微智能在具体的芯片设计上,又做了两方面深化。


1、支持混合精度计算


主流神经网络算法具有混合数据精度表示的特点,即不同的神经网络层可用不同数据位宽来表达中间数据或者权重数据的精度。


然而,传统AI架构无法高效支持混合精度计算,通常只能支持单一精度计算,或者只能通过扩展资源方式支持少数几种精度。


相较而言,清微AI芯片产品能支持从1bit-16bit的混合精度计算,同时,不同的神经网络层可以采用不同的精度表示,可以实时切换精度。


这源自CGRA架构的特点,在具体实现过程中,可重构模式动态重组计算资源和带宽,根据精度表示,让计算资源和带宽接近满负荷进行计算,从而将混合精度网络下的计算资源和带宽的利用率逼近极限,高效支持多种混合精度的神经网络。


2、优化非神经网络计算效率


AI算法不止有神经网络中卷积层、全连接层等逻辑,还有非神经网络计算逻辑。


比如在人脸检测和识别中,有NMS(非极大值抑制)以及仿射变换;在语音识别中,有FBANK/MFCC特征提取以及声学解码等。


而与此同时,非神经网络算法也在快速演进。比如最新NMS已经演化到Soft-NMS。

传统AI芯片架构强调了神经网络逻辑的计算效率,却忽视了非神经网络逻辑的计算效率。

针对非神经网络逻辑,一般仍然采用CPU或者DSP进行处理,或者采用ASIC进行固化。

清微AI芯片产品针对神经网络部分和非神经网络部分均进行了计算效率考虑。


针对非神经网络处理逻辑,从算法数据流图进行空间映射,以接近ASIC效率计算。


同时,其产品通过配置形成不同的电路结构来动态处理不同非神经网络计算逻辑,在保证灵活性前提下,计算效率有极大提升。


首款语音AI芯片量产,超强能效比


基于创新的CGRA架构,清微智能第一款实现规模化量产的语音AI芯片TX210拥有业界领先的算力、能耗比、时延、面积和成本。


image.png?imageView2/2/w/550


据介绍,TX210采用台积电40nm ULP工艺,支持WLCSP和QFN两种产品封装。


该芯片支持离线语音唤醒功能,支持5个唤醒词和10个命令词,还支持声纹识别。它支持3-5m的远场语音唤醒和识别,工作频率为50MHz,延迟不到10ms。


继承CGRA架构的特点,TX210芯片可编程、可重构,在结构上有着极强的灵活性,支持多比特DNN神经网络,可以支持1-16bit位宽的神经网络计算,也支持FFT/MEL FILTER等。

由于语音AI芯片的应用场景非常丰富,可以应用至智能手机、可穿戴智能设备、小家电、大家电、玩具及车载等众多场景中,而低能耗又是从终端设备到用户都非常重视的性能。

对此,TX210针对语音交互场景做了更多优化。


比如为了保持在低功耗状态,它采用多级功耗唤醒模式,只有在通过麦克风检测到人声时,它才会被激活,准确监听到“唤醒词”后,TX210才会去唤醒处于休眠状态的主控处理器芯片。


另外,芯片支持一语直达功能,处理器只需要处理唤醒词之后的语音信号内容。

经过多重优化,TX210将工作功耗控制在2mW内,将语音活动检测(Voice Activity Detection,VAD)功耗降至100uW内。


image.png?imageView2/2/w/550


该语音AI芯片的另一个特点是用极小的芯片面积支持丰富的接口和电源管理。


TX210的WLCSP封装面积仅有2.3 x 1.9mm2,适用于手机,蓝牙耳机等对体积要求苛刻的应用场景;同时TX210集成了LDO/ADC/BANDGAP/PGA等模拟器件,支持32K crystal输入,极大降低了用户的使用成本。


除此之外,在降噪方面,TX210也做了进一步优化,单麦基于深度学习进行降噪,双麦则是将传统算法与深度学习相结合,在典型信噪比下,TX210的唤醒识别率达95%,误识别率小于24小时一次。


据介绍,在TX210正式上市前,清微智能已与一些大型的互联网公司、智能手机及家电厂商建立了合作关系。


而这只是清微智能基于CGRA架构芯片的开始,他们的视觉芯片预计将在今年12月量产。

王博告诉智东西,目前他们规划CGRA架构18个月一迭代,下一代架构有望将算力再提高5-10倍。随着Thinker团队持续迭代更新CGRA架构,未来其语音芯片和视觉芯片的算力和能效比都将进一步提升。


在算法方面,清微智能在在算法压缩,量化以及硬件友好化设计方面有长期的积累,并与中科院、清华大学、乔治理工大学等开展了深入合作。


清微智能还研发了一套CGRA软件开发平台,这个平台兼容TensorFlow、Caffe等主流AI框架,可自动完成转换、解析、编译、生成等过程。他们自己的编译平台,允许用户从其它框架无缝迁移清微智能的芯片。


image.png?imageView2/2/w/550


清微智能选择先切入终端AI芯片市场,这与当下的大环境不无关联。


去年,智能终端产品呈井喷式发展,智能音箱在2018年第四季度的出货量增长了95%。日前,工信部电子科技委副主任莫玮曾表示:“中国已成为全球最大的智能终端生产和消费国。”


但业界普遍认为,终端智能的渗透率尚不足1%。这意味着,智能终端市场规模远未达到预期,也意味着终端AI芯片市场的巨大潜力。


基于CGRA架构研发芯片的不止清微智能一家,美国创企Wave Computing采用这一架构的第二代DPU芯片预计将在明年面世,是一款7nm云端AI芯片。


至于清微智能是否有进军云端AI芯片的计划,王博表示,Thinker团队之前曾做出过成功的云端芯片,考虑到公司规模和投入阶段问题,他们想先在端侧验证架构的表现是出色的,等下一阶段有了足够积累,再去做云端芯片。

创新架构是AI芯片发展的关键


目前AI芯片产业化还在起步阶段,从算法到算力,能耗比刚刚能满足用户基础的需求。

由于AI计算需要很大算力,但传统的冯·诺依曼架构在计算密集型任务方面遇到了瓶颈,芯片设计底层架构的创新成为未来持续发展关键,王博认为,这也是很多AI创业公司集中出现的原因,大家都在同一起跑线上。


即便采用同一类架构,如CGRA,设计思路在本质上不会有太多差别,但每个处理元素(PE,Processing Element)中怎么设计、让它实现怎样的功能、处理元素之间怎样连接更高效……这些细节的设计与创新会决定各家芯片的差异。


除了架构创新,工艺、近阈值的技术等方法的进化也很重要,他们能在先进架构的基础上进一步提升芯片的性能。


王博也谈到,做芯片的本质上还是要独立流片以及建立一个完整的生态系统,而不是把各种功能的IP堆在一起就行。做好芯片的前提,是要拥有大量的芯片行业积累。


芯片还需面临越来越多的场景去定义创新,才能将前期费用分摊下去,才能盈利,如果没有几千万的场景去支撑,做芯片的意义就不存在了。


对于终端智能而言,上传云端的稳定性、延时、隐私、部署成本等问题仍亟待解决,即将出现的5G将使得更多设备能够联网互通,使得这些设备对终端智能的要求更加明确和丰富。

结语:终端AI芯片落地新战在即


从清微智能身上,我们看到更加新颖的一种芯片团队组合,他们不仅拥有来自学术大牛带队研发的前沿创新架构,还拥有产业经验丰富的工程师们。两强结合之下,清微智能既拥有高性能+极低功耗的芯片,又能快速推进产品完成变现。


近一两年,一批新玩家涌入终端AI芯片市场,但撇除那些为了实现垂直化整合或优化自身整体方案的AI算法公司、设备供应商等跨界玩家,市场机会逐渐聚拢在少数拥有创新架构的玩家身上。


终端AI芯片的落地之战才刚刚开始,技术路径、覆盖场景、落地速度、生态扩张等因素都有可能将这些玩家拉开差距,市场将检验出谁是能打持久战的企业。


推荐阅读

史海拾趣

Eagle Plastic Devices公司的发展小趣事

随着全球环保意识的不断提高,Eagle Plastic Devices公司也开始将环保理念融入产品研发和生产过程中。公司采用环保材料、改进生产工艺、降低能耗和排放等措施,努力降低产品对环境的影响。同时,公司还积极参与环保公益活动,倡导绿色消费和可持续发展。这些举措不仅提升了公司的品牌形象,也为公司带来了更多的市场机遇。

3M公司的发展小趣事

随着技术创新的不断推进,Eagle Plastic Devices公司开始积极拓展国内外市场。公司通过参加国际电子展会、与知名电子制造商建立战略合作关系等方式,不断提高品牌知名度和市场份额。同时,公司还注重产品质量的提升和售后服务的完善,赢得了客户的信任和好评。在短短几年内,Eagle Plastic Devices公司便成为了电子行业内知名的塑料电子部件供应商。

Baumer Electric Ag公司的发展小趣事

作为一家技术驱动的公司,Baumer Electric Ag始终注重研发投入和技术升级。公司不断引进先进的生产设备和技术手段,提高生产效率和产品质量。同时,Baumer还积极与高校、科研机构等合作,开展前沿技术研究和新产品开发。这些举措为公司的持续发展提供了强大的技术支持和创新动力。

这五个故事展示了Baumer Electric Ag公司在电子行业中的发展历程。从创业初期的坚持与突破,到关键人才的引入与领导层的更迭,再到股份制改革与产品创新的结合,以及国际化战略与出口业务的拓展和持续投资与技术升级,Baumer Electric Ag凭借其卓越的技术实力和创新精神,逐步在电子行业中树立起了自己的品牌形象和市场地位。

H&D Wireless公司的发展小趣事

高创始终坚持研发为核心的发展路线,不断加大对新技术、新产品的投入。近年来,其研发投入占营收比例持续保持在较高水平,有时甚至超过15%。这种高强度的研发投入使得高创能够不断推出具有市场竞争力的新产品,如高性能多轴运动控制器、伺服系统等,满足了市场对于高精度、高速度、高性能运动控制解决方案的需求。

DUBILIER公司的发展小趣事

作为一家领先的电子企业,DUBILIER公司深知其对社会和环境的影响。因此,公司积极履行社会责任,致力于推动可持续发展。公司采取了一系列环保措施,减少生产过程中的废弃物和污染物排放。同时,DUBILIER公司还积极参与公益事业,为社会做出积极贡献。这些努力不仅提升了公司的社会形象,还为公司赢得了更多的尊重和信任。

AURORA公司的发展小趣事

AURORA公司深知自动驾驶技术的商业化落地需要与汽车制造商紧密合作。因此,AURORA积极与大众汽车集团、现代汽车等多家知名汽车制造商建立合作关系。通过共同研发和推广自动驾驶技术,AURORA成功帮助这些汽车厂商加速各自自动驾驶汽车的商用计划。这种深度合作不仅提升了AURORA的市场影响力,也为公司的长期发展奠定了坚实基础。

问答坊 | AI 解惑

德国厂家办事处直供工业连接器,进口电缆,耐高温电缆,柔性电缆,电梯电缆,电缆拖

公司产品介绍:一.LAPP KABEL(缆普电缆):1.控制电缆 2.数据电缆 3.总线系统电缆 4. 控制电缆:柔性电缆、电梯和输送系统电缆、固定安装电缆及导线、高频数据传输及光缆、耐油和耐高温电缆、螺旋电缆等。5. 数据电缆:低频数据传输电缆和高频数 ...…

查看全部问答>

圆柱型铝电解电容器的色套色标识别(原创)

圆柱型铝电解电容器的色套色标识别: 系列 特点 用途 色标 电压范围 电容量 温度范围 BP 双极型 极性反转 黑 6.3~50 0.47~470 BPA 音质补偿 音频 海兰 6.3~63 1~10 BPC 耐高纹 ...…

查看全部问答>

[原创]智能分析系统与红外灯

伴随着安防的智能化、数字化、网络化,动态PTZ跟踪自动跟踪监控系统(带网络功能)将是未来必然的需求,在多种监控方式整合的大平台里,若具备较好的网络资源,动态PTZ跟踪自动跟踪监控系统则是将智能分析功能和高速球集中管理、远程自动监控功能最 ...…

查看全部问答>

GSM模块

GSM模块将GSM射频芯片、基带处理芯片、存储器、功放器件等集成在一块线路板上,具有独立的操作系统、GSM射频处理、基带处理并提供标准接口的功能模块。因此,GSM模块具有发送SMS短信,语音通话,GPRS数据传输等基于GSM网络进行通信的所有基本功能。 ...…

查看全部问答>

wince下能否调用winmm.dll?

如题,上网查了,有人说不行,有人说可以(原文:一开始使用了winmm.dll(ce驱动里面可以直接用,不用LoadLibrary))。到底是否可以调用呢?我试了一下,是不可以的,但不知有没有用错。 烦请各位大侠指教! …

查看全部问答>

GPRS模组MC55激活问题

使用西门子MC55模块,我在初始化的时候,使用GPRS_SendATCmd(_T(\"AT\"));无法激活该GPRS模块 请问各位大侠是什么问题导致?…

查看全部问答>

help:使用THUMB编译后运行死机

程序用ARM mode编译后能正常运行,改为Thumb mode编程就死机。用的是IAR的编译器、Jlink、ST的库代码和启动代码。…

查看全部问答>

UART2僵住了

                                   …

查看全部问答>

光通讯接口器件咨询

                                 串口输入输出的TTL电平想通过光纤通道传输采用什么型号的光通讯接口器件?谢谢!…

查看全部问答>

12864操作

我新买了一块12864,带字库的。当时在店里试了,能显示。但是拿回来之后就是写不出来,现在已经排除对比度的问题,同样的程序用别人的程序可以显示。12864引脚的定义会不会不同???如果不同会有哪几种情况???以后在购买的时候有什么办法可以辨 ...…

查看全部问答>