历史上的今天
返回首页

历史上的今天

今天是:2024年12月21日(星期六)

2021年12月21日 | PACE处理器发布:曦智科技的一小步,光子计算的一大步

2021-12-21 来源:EEWORLD

日前,曦智科技宣布发布最新高性能光子计算处理器——PACE(Photonic Arithmetic Computing Engine,光子计算引擎)——单个光子芯片中集成超过10,000个光子器件,运行1GHz系统时钟,运行特定循环神经网络速度可达目前高端GPU的数百倍。根据曦智科技官方陈述,PACE成功验证了光子计算的优越性,是曦智科技在集成电路产业的又一重大突破。


image.png?imageView2/2/w/550

PACE与PCI-e板卡


百万数量级的增长


2019 年 4 月,曦智科技正式发布了全球首款光子芯片原型板卡,并用光子芯片运行了 Google TensorFlow 自带的卷积神经网络模型来处理 MNIST 数据集,整个模型超过 95% 的运算是在光子芯片上完成。其光子芯片处理的准确率已经接近电子芯片(97% 以上)。另外,光子芯片完成矩阵乘法所用的时间是当时最先进的电子芯片的 1% 以内。


image.png?imageView2/2/w/550

初代原型板卡中包含约100个光子器件,运行频率为100kHz。然而正如曦智科技CTO孟怀宇博士表示,初代原型板卡“并没有完全释放光子计算的潜力”。也正因此,历时两年研发,曦智科技通过革命性自研的光电子集成技术,推出了新一代光子计算处理器——PACE。


考虑到单颗芯片上100倍的光子器件数量提升,以及一万倍的主频提升,新一代PACE处理器的算力是第一代的百万倍级别增长。并且根据曦智科技CEO沈亦晨博士透露,未来主频时钟还可以提高1至2个数量级。


实测的算力提升


为了证明光子计算并不是在吹牛,曦智科技也给出了实测数据。


与目前市场上零售商用可购买的算力领先的英伟达GPU3080相比,运行PACE相同的特定循环神经网络算法,PACE的运行时间仅是GPU的1%之内。


PACE可用于解决组合问题,通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟,生成如伊辛问题(Ising)和最大割/最小割问题(Max-cut/Min-cut)的高质量解决方案。这些困扰了全球数学家近50年的难题,属于多项式复杂程度的非确定性问题(NP-complete),即在多项式时间尺度下无法通过数学方法解决的问题。


image.png?imageView2/2/w/550

如上实测结果显示,在最大割问题上,PACE的运行速度仅为154μS,而GPU要花费18000μS。


沈亦晨表示,PACE芯片的设计初衷并不是满足所有通用性的神经网络,之所以选择最大割问题进行对比,是因为最大割/最小割问题为代表的NP-complete可以广泛应用于生物信息、交通调度、电路设计、材料发现等领域。而一旦一个NP-complete问题得到解决,就可以相对容易地将解决方法映射到其他NP-complete问题上。


此外,沈亦晨还表示,明年曦智科技会推出相对通用化的产品,基于光子计算的优势去修改或优化更多模型,从而满足不同的市场需求。


为什么光子计算这么牛?


软件吃掉世界,AI正吃掉软件。


实际上,AI对算力的需求自从2012年之后,就开始呈现爆炸式的增长——平均每3至4个月,计算模型就会翻一倍。


随着先进工艺制程导入越来越困难,传统的摩尔定律正在放缓,即便不放缓,18个月晶体管数量翻倍也无法满足AI模型的增长。为此业界普遍开始采用DSA架构方式进行特定应用的优化,但依然存在三个瓶颈——算力、数据传输与存储。


沈亦晨解释道,晶体管的大小受限于原子的物理尺寸,已经不能无限制微缩。同时由于晶体管的隧穿现象,功耗也不能降低,散热的问题无法有效解决。密度无法大幅提升的情况下,只能依靠增加面积来提升总算力,但无法做到线性提升。比如Cerebras推出的单晶圆芯片,算力的确提高到英伟达的70-80倍,但是功耗却是英伟达的200倍以上,额外的功耗主要是缘于片上网络上的数据搬运所消耗的功率。在片间网络上,由于带宽限制,也严重影响了并行计算的效率,比如100个板卡互联,算力可能只比单卡提高10倍以上。而对于存储来说,依然是数据搬运过程中的延迟与带宽问题,出现所谓的“内存墙”问题。


但是光子计算下,由于矩阵乘法本身是被动的,这个过程中不会消耗任何能量,此外光子计算的速度是光通过矩阵所需的时间内完成的,并不需要晶体管的翻转,因此仅需几分之一纳秒便可完成,最后高能效和低时延性能与输入光信号的频率无关,这就意味着光矩阵可以支持高通量。


光纤通信的成功商业化,已经证明了光在计算网络中的重要性。同时,光子计算由于其距离较短,因此也不会受到光的色散及损耗的影响。


近年来,利用存内计算架构打破内存墙限制的技术也开始火热,同光学一样,这些也是基于模拟的神经网络计算,一个晶体管即可等效于一个计算单元。沈亦晨也表示,光子的矩阵运算是基于模拟的运算,所以精度有一些限制,但是光子信号更加干净,因此也会一定程度上好于基于电的模拟计算。


目前光子计算可以支持到8bit、10bit等AI常用算法要求,并且未来光子计算精度还有进一步提升的空间,同时也会提供低精度的支持。


探秘PACE


沈亦晨强调,PACE并不是纯光学的计算,而是光电深度混合运算,并且在可预见的未来,这也是光子计算的主流发展方向。那么PACE里面到底有哪些东西?


image.png?imageView2/2/w/550

可以看到,PACE芯片也是包含两部分,一部分是硅光芯片,另外一部分则是传统电子芯片,通过3D封装形式倒装堆叠实现两者互联。


PACE的电子芯片上包含了数字芯片和模拟芯片,其中数字芯片包括了逻辑和SRAM,逻辑部分负责调解数据流和管理输入输出,SRAM则负责存储。


模拟则是沟通桥梁,包括一系列的信号链组成,包括A/D、D/A转换器、放大器、驱动、调制等。


image.png?imageView2/2/w/550

硅光芯片则包括了64x64光学计算矩阵以及光电探测器等,激光器则是选择了外置。理论上来说,激光器离芯片越近越好,也正因此英特尔的硅光子技术就是将激光器、半导体光学放大器、全硅光电探测器、微型环调制器等集成在单芯片中。沈亦晨也表示,这也是未来曦智科技的技术演进方向。


image.png?imageView2/2/w/550

对于每个光学矩阵乘法,输入向量值首先从片上SRAM中提取,由数模转换器转换为模拟值,然后通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,光调制器相应地减弱入射光,形成输入光矢量。而整个光学矩阵扮演了类似NPU矩阵的角色,经过计算之后,输出端产生一组光学输出,由光电探测器阵列将光强转换为电信号,通过微凸点返回到模拟部分,再通过跨阻放大器和数模转换器返回数字域输出。


选择光电混合方式,可以使IO交互都通过电芯片完成,所有的指令集编译器以及SDK都是在电芯片上进行,这样可以和目前现有的软件生态兼容,客户可以更快导入。


而在开发方面,沈亦晨表示,无论是硅光还是硅电芯片,都是CMOS工艺,这就解决了90%的问题。包括大部分的电学/热学仿真、设计、验证等工具都可以直接使用,而在晶圆生产过程中也是基于传统CMOS工艺进行修改,可能会引入几个特殊的工艺步骤,而在封装方面,则需要考虑激光器封装或者预留出光源通道,但绝大部分都已经得到成熟的商业化应用。


尽管描述起来简单,但曦智科技的光子计算芯片想要成功,还需要克服诸多工程难点,从而解决剩下的10%的问题。沈亦晨表示,在曦智科技成立之前,全球最高集成度的硅光产品可能也就集成了数十个光学相关器件,为了满足光学计算矩阵所需的数万个光器件,纯手工的方式已经无法完成设计,因此曦智科技重头开发了一套高集成度光子芯片的设计流程。而在封装上,也是由于光学器件的高度集成,传统外接板卡进行光学组件控制的方式无法适用,需要开发出针对光学控制的3D封装。此外,针对光电信号协同工作,需要涉及软硬件集成、系统架构设计等多方面因素。


为此,曦智科技也专门聘请了Maurice Steinman担任工程副总裁。资料显示,Mo在科技行业的职业生涯有30多年,曾在Digital、康柏(Compaq)、惠普(HP)、英特尔(Intel)等公司工作,并在AMD担任Senior Fellow与首席架构师。作为一名拥有超过24个成功测试和产品介绍经验的老手,Mo是SoC架构、SoC互连、内存子系统和电源管理方面的专家。


曦智科技的核心技术


曦智科技的光子学技术主要分成三大部分:oMAC-光学乘积累加运算、oNOC-片上光网络、oNET-片间光网络。


(1)oMAC-光学乘积累加运算:这是一种模拟计算,用光替代传统电子进行数据处理。数据可加载在光的强度或相位上,数据流动的同时进行计算。oMAC执行线性运算也可理解为矩阵-矩阵或矩阵-向量之间的乘法。


其实现方式是采用与CMOS兼容的硅光工艺平台,光-电协同设计,结合先进封装技术;采用高速可调、小尺寸电光调制器设计;通过新颖的计算架构-基于MZI结构的相干/非相干方案,来做光与光之间干涉;最后硬件-算法的协同优化。


它的优势在于光计算并行能力更强,能效媲美甚至更优于电子芯片,且延迟超低。此外,硅光对工艺制程要求和成本很低,比如一个65nm或45nm的CMOS工艺器件就能满足现在光子计算所有的要求,其制造工艺成本远低于电芯片。


(2)oNOC-片上光网络:通过波导代替铜导线的方式,让数据在光芯片网络中传递,可实现单个电芯片(EIC) 内部的数据传输、封装内部多个电芯片 (EIC) 之间的数据通信。


其实现方式是在光芯片上构建一个固定或可灵活调整的通讯网络拓扑,将不同的电芯片与其中单个或多个节点相连,实现基于oNOC的数据交互;采用形式有基于光广播的网络拓扑和基于波分复用的网络拓扑。


它的主要优势是高带宽、低能耗、低延迟、距离不敏感。另外,该方法通用性强,可将不同类型的电子芯片与之结合,为芯片间提供高速、低能耗的互连,适用于有高带宽需求的应用场景。


(3)oNET-片间光网络:光芯片起到类似optical BUS的作用,将单元内部需要传输的数据集中起来,通过光传播介质(如光纤)与其他单元进行数据交互。


该技术主要用于优化计算单元之间的通信效率。相比传统电互连,光网络的能效比高、光学传播损耗低、带宽高、延迟低,且传输距离不敏感。


image.png?imageView2/2/w/550

而除了在集成光子学工程上的技术之外,公司还拥有大量AI相关人才,曦智科技提出了一个新颖的基于循环神经网络(RNN)的模型,该模型兼具幺正(而不是一般的)RNN的记忆能力和门控RNN有效遗忘其内存中冗余/无关信息的能力。


光学生态正变得火热


2017年,沈亦晨以第一作者身份在《自然–光子》期刊发表封面论文,首次将集成光子计算的新起点展示在世人面前。


而正是这篇论文为契机,诞生了包括曦智科技以及Lightmatter在内的二十余家相关公司,同时包括英特尔、HPE、IBM等一批巨头也纷纷进入这一市场。


沈亦晨此前接受MIT科技评论专访时,曾将光子技术的竞争阶段比作晶体管取代真空管的时代。彼时,几家晶体管公司正在实现跨越式发展,但他们之间的竞争并不是相互竞争,而是创新力与现有行业竞争。“在这个阶段,有更多的竞争对手从事光计算对我们有利。可以发出更大的声音,形成更大的社区来扩展和增强整个光计算生态系统。”沈亦晨说道。


沈亦晨特别强调,PACE的成功问世,也离不开合作伙伴的大力支持,曦智科技正在同一线晶圆厂、封装厂以及国际知名EDA设计等公司建立战略合作关系,从而充实整个生态。


沈亦晨表示,传统硅光生态由于量级较小,因此对于供应链没有足够的吸引力,只有像光子计算这类大规模应用场景加持下,才可以加速生态发展。更重要的是,越来越多的客户对高性能、低功耗的AI计算越来越有兴趣,这也是曦智科技生态链中的最重要环节。实际上,在曦智科技的股东中,就不乏一线互联网客户。


实际上,除了光子计算,固态激光雷达、光传感器等技术也在迅速发展,无论哪类场景,对于基础光子的工艺、封装以及器件等都会有相通性,光子市场的全面扩大,才可以进一步加速光子计算的商业化进程。


根据Wired此前报道,使用光子进行计算的想法并不新鲜,可以追溯到 1950 年代。但事实证明,电子计算更适合开发和商业化。1980 年代,贝尔实验室曾尝试制造通用的基于光的芯片,但由于构建可工作的光学晶体管的困难而失败。而现在的产业生态的发展显然是当初无法比拟的。


曦智科技的未来


目前曦智科技累计融资总额超10亿元,全球全职员工近200人,其中技术人员占比超80%,70%的芯片设计师拥有10年以上半导体从业经验,涵盖从硅光到软件、从模拟到数字最完整的团队。这一磨合了四年的队伍,也被沈亦晨视为公司“最大的财富”。


沈亦晨还强调,曦智科技是光子计算中起步最早,同时也是执行力最强的公司。光子计算不像数字电路,有成熟的设计流程,光子计算系统的开发包括器件设计、封装、以及软硬件一体化等较长的磨合周期。“任何一家公司,哪怕是几千亿市值,如果要从现在开始做出PACE一样的产品,也至少需要三年时间。”


谈到未来的发展计划,沈亦晨划分为三个阶段:


第一阶段,从现在开始,1~3年落地体现光子计算优势的应用场景,包括云计算、智能驾驶、金融上的量化交易、生物药物研发等,目前曦智科技已同全球顶级云服务供应商、主要金融机构开始进行深度合作。


第二阶段,随着光子计算优势明确后,将进入训练市场,在训练市场上,需要更多芯片的协同,更大体量的矩阵乘法以及更成熟的软件体系。


第三阶段,随着硬件和软件体系更加成熟,计划切入GPU、车载芯片等既对算力有需求,同时也对功耗,可靠性,软件生态等有更高要求的大众市场中。


未来路还很漫长,但正如PACE命名的内涵一样,迈出了重要的第一步,光子计算也将会有更光明的未来。

推荐阅读

史海拾趣

Gemmy Electronics Co Ltd公司的发展小趣事
高压电击式捕鼠器在工作时会产生高压电,操作时必须注意防止触电。非专业人员请勿私自拆卸或维修捕鼠器。
Array Microsystems Inc公司的发展小趣事

Array Microsystems Inc公司自创立之初,便专注于阵列传感器技术的研发。在成立初期,公司面临资金短缺和技术瓶颈的双重挑战。然而,通过不懈的努力和持续的技术创新,Array Microsystems Inc成功研发出了一款高灵敏度、低功耗的阵列传感器。这一突破性的技术不仅填补了市场的空白,还为公司带来了可观的利润。随着产品的推广和应用,Array Microsystems Inc逐渐在电子行业中崭露头角。

BAND-IT公司的发展小趣事

在电子行业的推动下,大型基础设施的建设也迎来了快速发展。韦拉札诺海峡大桥作为连接斯塔顿岛和布鲁克林的世界上最长的吊桥,其建设过程对紧固件的需求量大且要求严格。BAND-IT公司凭借其大型不锈钢卡箍产品,成功参与了这一重大工程的建设。这些卡箍不仅具有强大的承重能力,而且安装简便、安全可靠,为大桥的稳定性和安全性提供了有力保障。

巴丁微公司的发展小趣事

随着技术的不断进步和市场的不断变化,巴丁微始终保持着敏锐的市场洞察力。公司不断推出新产品,以满足不同领域的需求。其中,巴丁微的电机驱动控制、霍尔传感器等产品因其高性能、高品质而受到了广泛好评。

同时,巴丁微也积极拓展市场,与多家知名企业建立了合作关系。公司的产品不仅在国内市场占据了一席之地,还逐渐打开了国际市场的大门。通过不断的创新和市场拓展,巴丁微在电子行业的地位日益稳固。

Electro-Mech Components Inc公司的发展小趣事

自1976年起,EMC在蒂华纳不仅为自身运营制造工厂,还开始为其他美国公司,如GM/Hughes Aircraft和Daneher Joslyn Sunbank Electronics提供制造服务。这种深度合作模式不仅增强了EMC的生产能力,也使其能够接触到更多的先进技术和管理经验。通过与这些美国公司的合作,EMC的产品质量和生产效率都得到了显著提升,同时也为公司的全球化战略打下了坚实基础。

ETL [E-Tech Electronics LTD]公司的发展小趣事

随着市场竞争的加剧,ETL意识到只有不断创新才能在市场中立于不败之地。因此,公司加大了对研发的投入,积极引进先进技术和设备,不断推出具有创新性的电子产品。这些产品不仅具有更高的性能和更长的使用寿命,而且更符合市场需求,使得ETL在市场中的竞争力得到了显著提升。

问答坊 | AI 解惑

嵌入式群56956758欢迎一起加入

嵌入式群56956758欢迎一起加入…

查看全部问答>

LED的最新应用“LED 睫毛”,你见过吗?

这是一个会被称之为非主流的东东吧,是在上演“人鬼情未了”么,估计是可以利用在化妆舞会上露露脸。看见右眼有一条清晰的线,通电的应该在后面,难道是耳朵上那个“耳机”?配备着视频,不知道有没有什么特殊效果 …

查看全部问答>

ARM指令询问

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; ;;; MMU        Register discription ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; ;p15        CP    ...…

查看全部问答>

关于WinCE 5.0升级到WinCE 6 R.x?

目前使用的是WinCE 5.0,可能有计划升级到WinCE 6 R.x,这阵子找过一些数据后还是没很清楚WinCE 6比WinCE 5 性能上的好处,找到的文章大部份是以系统层来说WinCE 6修改了什么。假设我在WinCE上用C#写程序,WinCE 6比WinCE 5的优势在那呀?有比较快 ...…

查看全部问答>

请问如何购买wince的license?

要购买wince的license,请问这个的代理是哪家公司?…

查看全部问答>

只能看到扫描线而看不到波形?

示波器正常,能看到到扫描线,但是观察被测信号时,只能看到扫描线而看不到波形,这是为什么呢?…

查看全部问答>

AD转换

那位高手可以指点一下.正负1.5V的正弦波怎样用基准电压2.5V的MSP430AD来搞定.有没有参考电路提供.先谢了!…

查看全部问答>

此帖 用以总结怎么解决AD603 自激 欢迎大家踊跃发言

本帖最后由 paulhyde 于 2014-9-15 09:26 编辑 当年我们组在设计这电路的时候就着重考虑ad603需要稳定的电源和基准电压, 所以一次自激都没出现过。 所以看到你们这么多自激 很奇怪 。 正好有几个人问我,胡乱提了几个建议 帮忙解决一个自激 ,和 ...…

查看全部问答>

【解密11】基于51单片机的无线遥控坦克DIY 之 底盘结构与组装

之前给大家分享过遥控坦克的DIY过程,其中介绍了很多原理性的内容,还有部分组装过程,前面我们大概分了10次与大家分享,如果大家对前面的讲解感兴趣可以跳过去阅读,地址是: https://bbs.eeworld.com.cn/thread-363674-1-1.html 之前的分享内容 ...…

查看全部问答>