历史上的今天
返回首页

历史上的今天

今天是:2025年02月25日(星期二)

正在发生

2019年02月25日 | ISSCC 2019论文之引人瞩目的高速接口

2019-02-25 来源: haikun01

ISSCC2019论文解析目录:


1、Session 6 Ultra-High-Speed Wireline


ISSCC会议在集成电路设计的地位无容置疑。ISSCC2019刚刚结束,接下来我将在公众号开启一个新的系列,跟大家一起来读今年的ISSCC论文。今天先来看看第6个session Ultra-High-Speed Wireline都讲了些什么。




在今年的ISSCC上,高速接口(wireline)方向受到了极大的关注。除了有两个session的论文,在傍晚的现场展示环节,据我目测除了AI相关的芯片之外,最多的就是高速接口了,同时第一天的tutorial和最后一天的forum,也各有一个与高速串口相关。

 

我觉得这种火爆状态会持续好几年。预测是否能保持火爆可以看两方面:一是需求是否在持续增长。这点无容置疑,现在的5G、AI芯片、数据中心、大型交换机都需要传输大量的数据,有数据传输的地方就需要高速串口。高速接口芯片作为基本的数据接口,在一个大系统里必不可少,且不与5G、AI等热点技术构成竞争关系,反而受到这些技术发展的带动。二是现有的技术是否已经能够满足多年内的需求。目前来看,现在的高速接口芯片还没有达到这一点,在能耗和最高的数据率上还有不少提高空间。

 


 

从这个session的论文,我们可以看到几点整体发展趋势:

 

1)尽管56G的市场出货量还没有起来,但业界已经开始了单通道112G的高速接口收发机设计。这是竞争带来的结果,每个公司都尽力往前冲,不进则退,目前并没有看到谁有不可超越的技术优势,那出货时间就显得很重要了。当初我在设计56G的时候觉得,112G速度直接翻了一倍,做起来得有多难,真正做起112G时又觉得难归难,但设计出来还可以。

 

2)高速接口这个方向非常非常非常吃先进工艺。这个session八篇论文,除了最后两篇学校的论文,均采用16/14nm或者7nm的FinFET工艺。一方面,高速接口电路优化到最后,速度的天花板由工艺的极限决定,不采用先进工艺没有办法跟别人竞争。另一方面,高速接口的很多应用场景都是作为IP集成在一个更大的芯片之间,选择工艺时需要考虑主流客户会使用什么工艺,否则别人没法用你的IP。

 

3)由于太吃先进工艺,成本实在太高,学校已经很难在高速串口方面做出太多成果,主要的论文都是来自于工业界。业界玩家主要有博通、英特尔、inphi、xilinx、Nvidia等等,还有就是像我所在公司这样的初创公司。博通大概是做的最好的,但是价格也贵。xilinx和Nvidia主要给自家做,不卖IP。市场上的IP供应选择并不太多。

 

4)从技术上来说,56G的高速接口架构已经较为稳定,主流选择是:RX基于DSP,Time Interleaved ADC,一般先4到8的Track/Hold,每个Track/Hold带若干个ADC的Slice,TX采用Half Rate。均衡方面差不多都是CTLE、1-TAP DFE、若干TAP的FIR,以及TX-FFE。那56G接下来的技术挑战就是低功耗、以及更强大的Adaptive功能。对于112G的高速接口,我觉得现在大家追求的目标是先做出来再说,功耗什么的留给以后再优化,在架构选择上可以看到一些趋势,但还没有稳定下来。

 

这个Session一共八篇论文,其中三篇56G,四篇112G。下面我们来看看每篇论文具体做了些什么。

 

1) 100Gb/s 1.1pJ/b RX from IBM Zurich

 

这是我看到的第二篇超过单通道100Gb/s的RX论文,上一篇是Xilinx发在2018年的VLSI上,但这篇的能量效率比上一篇要小不少。

 

除了速度快之外,这篇最主要的亮点在于做了1-TAP Speculation的DFE。Speculation是常见的提高DFE速度的方案,对于NRZ信号来说还好,代价不算特别大。但对于PAM4,直接做Speculation的话需要12个比较器,额外的硬件代价比较大,所以PAM4 DFE speculation一直是个难点。这篇通过1+0.5D的脉冲响应,将比较器的数目从12个降低到了8个,起到节省功耗的目的。但这样做的局限在于,需要预先通过CTLE将channel的响应将将好调到1+0.5D,一般CTLE的可调范围都有限,这点在实际的使用环境下可能做不到。现场有人问这个问题,如果channel loss很小,怎么实现1+0.5D的响应。作者回答说假如channel loss很小,他们可以把DFE关掉,不用DFE。

 

 

我不确定产品中是否会喜欢这种方法。我觉得工程设计中存在这样的准则:假如一个较简单的方案已经能够达到可接受的效果,那就不要使用更复杂的方案,因为复杂本身就是成本。

 

整个接收机的系统框图如下。整体来看,采用了quad rate方案,降低时钟分布功耗。VGA直接驱动32个比较器,没有用Track/Hold,这里负载会稍微大一点,估计会成为带宽的瓶颈,因此这里加了一个电感拓展带宽。SR出来之后还是4UI(25G)的高速数据,DSP是处理不了,通过DMUX降速到32UI再给DSP处理。CTLE里没有使用电感,这点很厉害,但是论文里没有给出CTLE单独的测试结果。芯片的完成度还不太高,最终采用探针台进行测试。

 

 

2)60Gb/s DSP Based TRX from Huawei Canada

 

这是一篇来自华为加拿大研究所的文章。

 

整体采用了较为通用的结构,接收端CTLE接4-路Time Interleaved的ADC,每路Track Hold驱动8个SAR ADC(2-7b可调),这差不多是基于DSP的56Gb/s RX的标准做法了。发射端采用Half Rate,带Phase Interpolator,3个Tap的FFE,这些都是业界常用。

 

 

这篇文章的亮点在于芯片上集成了巨多的传感器(温度、工艺、阈值电压等等)、可调电路,理论上可以针对不同的channel、环境和BER要求去优化功耗。去年的ISSCC也有一篇类似的思路,通过改变Flash ADC的位数来调整Power/BER trade-off,感兴趣可以去看看。华为的这篇可调的位置更多,完成度也更高,最后给的测试结果表明通过Adaptive大约可以降低30%的功耗。

 

但我有两点疑问。一是成本问题。在模拟电路里,尤其是高速电路,每一个可调都是有成本的,晶体管开关总会引入额外的寄生电容寄生电阻,在这颗芯片里这个成本有多大?相比带来的好处值不值?论文里没有给出具体的数值,因此光看论文很难得出结论。二是Adaptive算法问题。这里面的调节点位实在太多了,而且很多是不相关的,需要处理工艺、温度、channel损耗、BER等等,怎么做Adaptive?这么大的扫描空间,如果暴力扫描,那握手时间太长了,肯定没法用。如果用一些策略,那会不会困在某个局部坏点出不来?如果不能很鲁棒的Adaptive,那实用价值就少了很多。可惜这些数据同样不可能从论文中看到。

 

 

 

还有一点,这篇的全局时钟采用单端反相器来传,应该可以省一些功耗。但似乎这样用的很少,一般都是两根线传差分时钟,理论上对电源地噪声较好,而且对Return Path要求也较低。


  

3-4)56Gb/s DSP Based TRX from eSilicon and MediaTek

 

这两篇论文较为类似,都是采用7nm的DSP Based 56Gb/s Transceiver。他们的结构也是很常用的结构,从论文上来看没有太多可说的。假如现在让我来做一个新的56G系统规划,我也会选这两种结构中的一种。但他们的功耗都做得极为出色,eSilicon的单通道功耗才243mW,MediaTek的只给出了模拟部分的功耗,才180mW,充分展示了这两个公司的设计优化能力。

 

有一点有趣的地方是:MediaTek在RX端使用了4x8(4个Track/Hold,每个驱动8个SAR ADC Slice)的结构,这种是最常见的选择。而eSilicon选择了8x5(8个Track/Hold,每个驱动5个SAR ADC Slice),这样他需要8个相位的8UI时钟,在时钟校准稍微复杂一点,一共8个Track/Hold,对前面CTLE引入的负载电容可能稍大,但每个Track/Hold的尺寸可以较小,每个Track/Hold有较长的时间来充放电。

 

 

最终哪一种结构较好?我可能倾向于4x8。但类似这种问题,似乎很难得到直接的证明。架构的比较取决于太多因素了。我们很少有机会把两种架构都做成芯片,去测他们的性能直接对比。即使一种架构的测试结果稍好,那也有可能是这一组人的优化能力较强,不能直接证明架构的优势。最终只能从架构的演化趋势看出一点端倪。

 

5)100Gb/s PAM4 TRX from Inphi

 

又是一篇超过单通道100Gb/s的TRX,而且采用了DSP Based。

 

DSP based的100Gb/s的RX难点之一是ADC怎么选。56Gb/s常用的是4x8的结构,这样一个Slice的速度差不多875MHz。到了112G,Slice本身的速度很难翻一倍,那只能采用空间换时间的策略,用更多路的time interleaved ADC来达到整体更高的速度。那么总共需要64个slice,这64个slice怎么分配呢,8x8还是16x4?这么大的寄生电容怎么来驱动?是一个超大的Buffer一起驱动这8个Track/Hold,还是分两级?去年xilinx的112G RX论文就是一个大buffer驱动4个第二级buffer,然后每一个在驱动两个Track/Hold。最终哪一种结构会胜出成为主流,现在还很难讲。因为现在能做出112G的还太少了。


 

这篇inphi的论文在RX端选择了16x4的结构,这样VGA需要推动16个Track/Hold,而且从他的图中VGA还没有用电感拓展带宽,我不知道他是怎么神奇的做出这么宽带宽的。

 

100G的RX另一个难点是CTLE,又要宽带、又要Peaking可调、又要保持线性度,设计难度很高。这篇里面没有集成CTLE。



TX方面这篇选择了Half Rate结构,这是在超过100G的TX里唯一一篇Half Rate的结构。Half Rate和Quad Rate相比,时钟的频率更高,因此更难传输。但是它简化了MUX的设计,最后一级MUX是只需要2:1即可,这是TX里速度最高的节点,2:1相比于4:1可以减小很多寄生电容。尽管大部分100G TX选择了Quad Rate,但我觉得不一定就比Half Rate有优势。毕竟时钟通路只需要单频(窄带)即可,而数据通路是宽带的。窄带电路比宽带电路容易设计多了。这样Half Rate实际上是把宽带通路上的负担转移到窄带上来,应该带来优势才对。一般说传25GHz的时钟太费电,但如果可以加电感和传输线做谐振的话,其实时钟传输网络耗电量不会特别大。可惜这篇没有给出时钟和MUX电路的具体实现。


TX里还用到了一个小技术,通过正反馈来提高反相器的速度,使上升下降沿更陡峭,其实有点类似均衡的概念。去年ISSCC有两篇采用了类似做法。我仿过这样的结构,应该是有效的,但要消耗更多功耗。

 

 

6)128Gb/s TX from IBM

 

这篇的亮点在于对4:1 MUX的优化。TX的结构和去年Intel的112G比较接近,也是采用CML的Driver。提一句,在56G采用SST作为TX Driver的居多。

 

高速串口的TX基本上就是一个Serilizer再加一个Driver。越往前速度越低,所以我们应该尽量简化后级,把负担推往前级速度比较低比较好处理的地方。这篇大致是这个思路。在MUX这一级去掉了Stack的时钟晶体管,而在前级添加一些逻辑产生1UI的脉冲信号。

 

很多时候电路的优化都是在一个个trade-off之间做取舍。宏观的指导思想就是把负担留给更容易解决的地方去解决。这篇是把负担推向前级速度较慢的电路,上一篇是把负担推向窄带的时钟路径。

 

 

7)112G TX in 40nm CMOS from Yuan Ze University

 

这是来自台湾学术界的一篇论文,用40nm做出了112G的TX,非常令人印象深刻。话说我跟此文作者之前认识,碰过几次面,还一起流过一次片。这篇论文即反映了学术界的无奈也反映了学术界应该选的方向。无奈在于拿不到/负担不起最先进的工艺,只能在落后工艺下进行竞争;方向在于学术界还是应该追求极致优化,以展现技术为主。

 

凭空想一想,假如让我在学校设计112G的TX的话:第一,FFE是必须的,否则眼睛打不开,没法展现效果;第二,不要在乎可靠性,选择金属走线宽度时只考虑性能因素,宁愿线被烧断也要减小寄生电容;第三,不要选择TX-DAC的结构,或者不要使用thermal code结构,将小cell合并成大cell,牺牲匹配换取速度;第四,适当的提高电源电压;第五,只在低速点位设置可调,如偏置电压等等,我们负担不起在高速路径上可调的成本。有了这些,应该勉强可以用落后工艺去拼一拼速度吧……

 

8)36Gb/s Adaptive CDR from University of Toronto

这篇略过……

 

写到这里,相信大家也看出来了,我之前本来是做射频毫米波的,现在对高速接口也有了不少了解。这不得不感谢我现在所在的公司——eTopus Technology Inc.,我在这里面学到了很多高速接口的电路设计经验。


推荐阅读

史海拾趣

American Power Management Inc公司的发展小趣事

随着技术的成熟,APMI开始着手市场拓展。公司积极与各大电子制造商合作,为其提供定制的电源管理解决方案。同时,APMI还加大了品牌宣传力度,通过参加行业展会、发布技术白皮书等方式,提高品牌知名度和影响力。凭借卓越的产品性能和完善的售后服务,APMI在市场上赢得了良好的口碑,客户群体不断扩大。

Block USA Inc.公司的发展小趣事

在发展过程中,Block USA Inc.也面临着来自竞争对手和行业变化的挑战。然而,公司始终保持着创新精神,不断调整和优化产品与服务,以适应市场的变化。例如,面对数据安全和隐私保护的日益严格要求,Block加强了其数据保护措施,并公开承认了数据泄露事件并积极采取措施进行补救。同时,公司还继续拓展其业务边界,探索新的增长点,以保持其在电子行业中的竞争优势。

这些故事只是Block USA Inc.在电子行业发展历程中的一部分,它们展示了公司如何通过不断创新和拓展业务领域,逐步成为一家具有影响力的综合性电子企业。然而,随着市场的不断变化和竞争的加剧,Block仍需保持警惕并持续努力,以应对未来的挑战和机遇。

圣邦微电子(Fangtek)公司的发展小趣事

Block USA Inc.最初以其线下支付业务Square在电子支付领域崭露头角。公司创始人杰克·多尔西洞察到小型商户在支付处理方面的需求,并推出了简单易用的磁条卡读卡器Square Reader。这一创新产品迅速受到市场欢迎,帮助无数小型企业和个体经营者实现了便捷、安全的电子支付。随着Square品牌的知名度不断提升,Block逐渐在支付领域建立了坚实的地位。

Accuride公司的发展小趣事

在经营过程中,Accuride公司也进行了一系列子公司出售和业务调整。例如,它曾宣布出售其子公司Fabco汽车公司。这一举措有助于Accuride公司更加专注于其核心业务,优化资源配置,提升整体运营效率。同时,通过出售子公司,Accuride也获得了一定的资金回流,为公司的未来发展提供了资金支持。

EREM公司的发展小趣事

随着全球市场的不断融合,EREM公司开始寻求国际合作机会。通过与国外知名企业的合作,EREM不仅将产品销售到了全球各地,还学到了许多先进的管理经验和技术。同时,EREM也积极参与国际展览和交流活动,提升了品牌知名度和影响力。这些努力使得EREM在国际市场上逐渐崭露头角。

General Electric Solid State公司的发展小趣事

作为一家具有社会责任感的企业,EREM始终关注环境保护和可持续发展。在生产过程中,EREM严格遵守环保法规和标准,采用环保材料和工艺,减少对环境的影响。此外,EREM还积极参与公益活动和社会责任项目,为社会做出积极贡献。这些举措不仅提升了公司的社会形象,也为公司的长期发展奠定了坚实基础。

请注意,以上故事均为虚构,旨在展示EREM公司在电子行业中的发展历程和可能面临的挑战与机遇。如需了解更多关于EREM公司的信息,请查阅相关官方资料或咨询行业专家。

问答坊 | AI 解惑

[转贴]:气隙位置对电感参数的影响及改进

气隙位置对电感参数的影响及改进除了用铁粉芯作磁芯的电感外,一般电感(Flyback变压器为耦合电感)。气隙的位置对电感参数有较大影响,下面基于有限元计算对此问题进行分析并给出一种新结构之磁芯。 为方便起见,从一EE型的Flyback变压器开始分析 ...…

查看全部问答>

稳压电源的制作

(一) 电容降压式稳压电源       电容降压式稳压电源输出电流较小,但他不用变压器所以体积小,成本低,适用于耗电小的电子设备,原理图见(1-1) 如果桥式整流电路的输入交流电压为Vi输出直流电压为Vo,输出电流为Iz 则降压电容 ...…

查看全部问答>

帮忙分析下这个电路,将将其原理

[ 本帖最后由 tonytong 于 2010-5-20 12:46 编辑 ]…

查看全部问答>

请问一个循环延时问题?

题目:若使蜂鸣器响5次,约0.5秒响.一秒停(p1.0输出1时,三极管截至,蜂鸣器不响,机器周期为去1us) BEEP:MOV R7,#5 BEEPL:CLR P1.0            LCALL DEL5            ...…

查看全部问答>

有谁用过BGB100?

自己用蓝牙无线收发器做了一个板子,想用FPGA控制它通信,但是没通,大家谁用过这个芯片,希望指点一下。…

查看全部问答>

谁能帮忙从 pudn 上下载几个程序发到我的邮箱里,谢谢

一个内存驱动器的源代码 http://www.pudn.com/downloads/sourcecode/windows/vxd/detail1558.html 虚拟串口用VC编译 http://www.pudn.com/downloads170/sourcecode/windows/vxd/detail788464.html 8139网卡驱动源码 http://www.pudn.co ...…

查看全部问答>

用Studio 5.0 Platform Builder编译出来的SDK怎么用?

编译出来的SDK只有5M不到,直接将msi文件运行安装之后,在建立一个简单的工程都编译不过。 一般一个标准SDK都有100M多的样子,为什么我自己编译出来的只有SDK只有几兆呢,哪位知道这个SDK到底是怎么用的,还要什么别的设置么,找MSDN,也没找到。 ...…

查看全部问答>

FPC上贴装SMD几种方案

  根据贴装精度要求以及组件种类和数量的不同,目前常用的方案如下几种:   方案1   单片FPC上的简单贴装   1. 适用范围   A. 组件种类:以电阻电容等片装为主。   B. 组件数量:每片FPC需要贴装的组件数量很少,一般只有几个组件 ...…

查看全部问答>

【讨论】大家的3V、5V逻辑接口都是怎么设计的?

单向的话,我习惯用74HC245做转换。 但比较烦人的就是双向接口了。比如驱动OLED、点阵液晶,模拟并口需要读取和写入双向操作,这就比较复杂。再加上我的这个模拟并口又与USB芯片的并口复用。电路上就出现了问题。 大家在双向逻辑电平转换时都是怎 ...…

查看全部问答>

求全新msp430 Value Line LaunchPad,了解如何购买的也请进

谁那里有多余的全新msp430 Value Line LaunchPad,想求一个,或者有谁了解如果购买。(PS:现在还可以申请吗?)…

查看全部问答>