------ 以下为演讲全文 ------
非常感谢“燕缘雄心”邀请我过来跟大家做这个分享,作为“燕缘雄心”的一员希望这个平台越办越好!
今天我演讲题目是《激光雷达的终极方案Si Photonics LiDAR on-a-Chip》。这名字听起来有些张狂,但主要目的是想吸引更多的朋友进来,想跟大家探讨一下对激光雷达方案的看法以及激光雷达市场的看法。
这个是我的个人简介,主持人已经介绍比较全面了,我就不再赘述。我大概补充一下之前的创业经历。博士毕业之后,我先加入了一家硅光子上市公司,后来独立出来和朋友一起创立了硅光子芯片公司。早期我们聚焦在光通信方面的应用,做光通信里面的硅光无源和有源的芯片,供给光通信模组公司,再由光通信模组公司供给数据中心或者是电信系统公司,我们的芯片最终是应用到Google、Amazon云数据中心里面,当时已经形成大规模量产,最后我们被某上市公司收购。大概在三年前,我和原团队部分成员一起成立了洛微科技,做激光雷达这个方向,使用技术仍是我们积累多年的硅光子技术。
我的演讲主要分三个部分:
首先,我先从应用开始说,对于我们这个应用就是无人自动的一个未来。
我其实没有故意选择这个自动化这个翻译,因为Autonomy或者Autonomous这个词本身并不是自动化的意思,那是Automation。Autonomy或者Autonomous实际上是你不需要提前编程,根据这个设备自己的一些目的进行判断和选择,这是一个很大的领域,包括自动驾驶的车以及各种机械的东西。
然后,我会讲到用哪些技术可以做这个应用,我们的技术选择以及其他平台的技术选择。
最后,就是借助这次演讲也介绍一下洛微科技做的一些事情。
首先就是应用,讲到这个应用的话可能没有人比NVIDIA(英伟达)CEO Jensen Huang的总结更精炼的了。他说“Eventually Everything That Moves Will be Autonomous”,就是说以后所有能动的东西都会是无人自动的……当然,对于NVIDIA是要做这里面的计算的部分,但实际上这个技术方向是我们很多人共识的一个未来。当然Autonomous不光是自动驾驶的车,但自动驾驶的车可能是很多人目前最关注的一个方向……这个地方我们聚焦回来变成一个车的应用,因为目前车的应用看起来是最快落地,而且体量比较大的一个市场。
这里就先提一下,一些标准机构或者行业者把自动驾驶分成从L0直到L5不同级别,但这个里面留了很多可以商谈的地方,所以不同的人会给出不同的定义,这也是因为自动驾驶并没有到非常完善或者很标准的地步。
我把这个级别按照比较容易记的方式给大家梳理一下。
L0就是没有任何自动化。
L1就是把脚释放出来。基本上我们可以只用手来开车,脚那部分的刹车也好或者是油门的大小也好是自动控制。我们很早很早以前的车上就有一个自动巡航的功能,我们在高速上设定一个速度,可以自动巡航,这个时候就是有L1的功能在里面。当然,这里面还有些小的改进都属于L1的范畴。
L2就是把手释放出来。意思就是说,我们在L2的功能前提下,原则上我们可以把手脱离方向盘,不但可以控制速度、前进、刹车,还可以控制转弯,比如说遇到危险或者变道。实际上为了让我们集中精力,目前的L2系统都是要求我们的手是放在方向盘的,这样作为我们集中精力的判断,但这个跟技术其实无关,是跟我们的人性和应用的法律要求有关系。
可以看到从L3开始颜色就变化了,L2以下是紫色,到L3以上就变成蓝色了,之所以有这么一个变化,是因为L3和L2之间有一个比较大的区别就是责任的归属问题。L2及以下级别是车辆本身不需要负责的一个系统,也就是出现任何问题都是司机的问题,这个就是为什么我们说现在的自动驾驶就是L2的辅助驾驶,不管是Tesla还是其他的公司都是这样来定义,如果出现事故,这些汽车公司不会受到惩罚,因为使用手册里面写的很清楚,L2系统出了问题是司机负责,但到L3及以上级别就有了车厂的责任。这个地方是目前法律还没有界定非常非常清楚,这是为什么我们说L3还需要一定过程和时间的原因之一。
L3就是把双眼释放出来。原则上司机可以看手机、看书,不用手握方向盘也不需要去动油门,直接就可以做司机自己的事情。但是,要在限定的场景下,也就是说在一定的场景下,一定的环境下,我们叫ODD。但是如果汽车判断前面的场景不适合做L3的自动驾驶,汽车会用一些提示的方式让司机来接管。这个过程实际上就会遇到法律责任的问题,因为自动驾驶过程中是车有责任,交给司机之后就是司机有责任,那中间过渡的这个过程就变成一个模糊地带。
L4就是把大脑释放出来。因为L3原则上还需要司机集中精力,因为随时有可能车的控制权交还给司机,但是L4原则上在一定的场景之下司机可以完全不去管,这个场景可大可小,标准上留了很多弹性。在这个场景完成之前,你不需要接管任何事情,这样的话责任当然是这个车,所以这样责任就从驾驶员转移到车厂上。
L5就是完全释放出来。人类可以驾驶的地方车都可以,当然这个L5有的人说是个假命题,我们人也不是所有地方都可以去,天气不好的时候,道路比较差的时候我们人也不会去,这个就是定义的问题这倒无所谓,那基本就是说我们人可以驾驶去的地方车都可以去。
那么在车辆上支撑自动驾驶的场景需要哪些技术?
第一是传感技术,就是我们把周围环境的数据采集回来;第二个就是计算技术,当你要做分析就要做计算,这就需要计算的一个过程;第三个就算法和数据技术,我们拿到大量数据,需要用算法来做分析做判断,我们实际上就是要做感知、做计算、做算法。在这三个里面我们最关心是其中的传感技术。
传感技术从传统上有两个阵营,有的人会说是视觉阵营和激光雷达阵营。但我认为这个说法是不太对,因为视觉实际上永远是少不了的,这点我从来不否认,因为最简单的一定要视觉看红绿灯,这个是任何激光雷达或者毫米波雷达都替代不了。实际上,这个这两个阵营我认为是单传感器阵营和多传感器融合阵营。
目前市场上做自动驾驶的公司来看的话,比较坚持的做单传感器方案的就是特斯拉,其余的公司无论是自动驾驶创业公司,还是传统车企,或者是造车新势力,都是选择多传感器融合的方案。
特斯拉是我非常尊敬的一家公司,Elon Musk也是我非常尊敬的一个创业者,他说的很多事情我是非常赞同,他有一个很著名的理论经常挂在嘴边,就是First Principle第一性原理这个事情。第一性原理是物理学里面的一个概念,就是从最本原的方程和原理出发,来推导一些结论,对于产品技术来说就是让我们从一些最本源的想法来做一个方案。这个东西听起来是非常美妙的一个原理,非常好的一个事情。放在自动驾驶这个场景下是什么意思呢?我们人是可以用眼睛加大脑来完成L5的驾驶任务,那为什么车不行了,这个听起来非常第一性原理,非常有道理。
但实际上,凡事都要有前提,所以把这个第一性原理的判断剖析一下,它的成立需要至少有三个支撑点:第一个就是Bionics,就是我们所谓的仿生,仿生是最好的;第二个就是说我们目前基于深度学习的AI是可以去跟我们的人脑对等;第三个就是我们在道路驾驶上采集这些数据是足够的。这三个支撑点很容易理解,如果这三个支撑点都成立的话,这个判断确实是成立的,而且我也认为确实有可能在某个时间点可能会做得到。
我们再把这三个支撑点进一步分析一下。
仿真是不是一定是最好的?这个其实也不一定,虽然仿真听起来是很美妙的一个事,但我们历史上并不是所有事情都用仿真来做,最简单就是飞机是从鸟开始仿生来做飞行器,但是最后我们知道飞机的飞行原理跟鸟完全不一样。
然后,这一轮的深度学习到底能不能达到人脑的水平,这个当前业界争论是非常非常激烈的,但是从被称为这一轮深度学习之父的三个科学家(Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio荣获2018年图灵奖)的观点看,他们对这一轮深度学习能达到人脑都是一个比较悲观的态度。业界确实还有很多人认为深度学习足够了,这个我没法做一个专业判断,但我的问题就是说需要多长时间来达到,这个应该说没有人给出一个明确答案,在我看来的话应该还是需要比较长的时间。
最后就是在街道上采集的数据是不是足够的,这个其实也是值得商榷的一个事情。其实我们的驾驶环境中,我们有时会遇到可能一辈子只遇到1次的情况,而这个情况其实我们可能根本不会想到在马路上会发生,但是我们基本上还是会根据我们的常识common sense来做一些判断,因为我们自己大脑的训练不是只靠街上的数据,我们是靠从小长大在家里,在学校以及各种各样的数据来得到这些结论,所以马路上采集的这个数据到底够不够其实这个是值得商榷的。
这个地方其实我并没有给出一个结论,而且我刚才说过视觉自己就可以做很多的事情,但是并不是一个很容易的事情,而且并不知道什么时候可以做到。
所以对于业界来说,单视觉传感器来做自动驾驶其实是一个带有不确定性的方案,但是是一个目前比较便宜的一个方案。多传感器融合的方案是一个确定性的方案,在很多自动驾驶技术团队看来,多传感器融合的方案其实在驾驶场景里面准确率或者是可用性非常强了,至少在感知层面是非常要强了,他们现在更多时候在control和planning上做功夫,所以实际上这是个确定性很强的方案,但是目前成本可能会高一点。所以说车厂或者自动驾驶公司需要在这两个方向上选一个。
我们谈到激光雷达这个事情到底能带来什么样的好处呢?
第一个就是说能给一个真值的距离,虽然用视觉的单目、双目还是多目的方式上也是会给出一个距离值,但这个值会受一些环境的影响,而激光雷达这种方案的话是给出一个真值,同时当然他比毫米波雷达要提供更高的分辨率。为什么要这个真值呢?在算法上我们需要一个很好的recall rate,来配合视觉做一个感知的判断,也就说你看到一个东西在那,你就知道是真有这个东西的。第二个就是说在这个过程中可以做更好的perception,这个其实跟刚才说的也是有点吻合的。第三个更主要就是说可以处理一些复杂环境的场景,包括光照的场景,包括一些干扰场景,可以做更好算法处理,这个是激光雷达可以带给我们的一些好处。
接下来讲一下激光雷达的不同技术方向,然后我们的技术选择。
说到这个事情又有点回到像第一性原理这个事情上了。首先,我们把这个眼光放长远一点,如果说激光雷达是一个未来会像摄像头一样到处都是的产品,那激光雷达产品构成就应该像摄像头一样。现在我们打开一个摄像头模组里面最关键的零部件是什么?当然就是那颗传感器芯片。不管是索尼还是其他公司的摄像头,那颗芯片是价值和利润最高的部分。所以我们分析方案的话就从芯片开始分析。
我们看整个芯片或者半导体行业过去70年的发展历史,基本上最后你会发现一个很有趣的现象,如果说硅的CMOS可以做的事情,最后都变成CMOS,这个事情一直在发生。太久远的就不说了,我们从最近二十年开始看,90年代时候CCD还是一个在图像传感器领域上非常高端的一个事情,CCD能做的事情CMOS是做不了的,采用CCD的相机是高端的相机,CMOS是低端的相机,但2005年之后,其实你可以看到CCD能做的事情CMOS基本都能做了,到2010年之后,已经几乎看不到CCD的相机了,所以说这个就是一个典型的例子。同样的例子其实也发生在射频前端,从GaAs到CMOS,也发生在毫米波,从SiGe到CMOS,也发生在我们之前做的创业的光通信领域,从GaAs/InP到CMOS硅光,所以这个对我来说是一个非常非常明确的一个方向。所以现在激光雷达也是一样,我们做硅光的这个方向,或者选择硅光的这个技术平台,应该从长远上看的话我认为也是一个必然的趋势。
为什么是硅半导体?其实这里面有一定的偶然性,但也有一定的必然性。大家知道最早做的半导体器件的是晶体管,并不是硅而是锗材料,锗材料最终并没有作为大家公认的技术选择,然后中间大家也发现如果用磷化铟、或者用砷化镓这些材料做进晶体管,也会有更高的性能指标,但最后这些东西都没有成为主流,事实上现在如果能用硅CMOS替代的东西都替代了。早期看来主要是一个材料的问题,硅材料有几个好处,一个就是说它是单质,单质材料比较容易提纯,至少跟化合物相比比较容易提纯,另外一个很大好处是硅有一个非常稳定的二氧化硅,二氧化硅是作为我们晶体管,做一个CMOS管中非常好的隔离材料,我们需要非常好的隔离来减少漏电流。这个在在其他材料上是比较难的课题,这就决定了在硅上面做的MOS管最好。另外,硅材料本身在所有可用的材料里面机械强度最大,说白了就更不容易破碎,可以做更大、更薄,这样对材料的损耗就会比较小,而且把晶圆做大产量做高。现在主流的硅晶圆是12寸的,18寸晶圆之前提过,而且也做出来过,只是现在设备没有跟上。而锗材料的晶圆常见就是六寸,八寸的也有但是比较少见,但是如果你看砷化镓最大是6寸,磷化铟最大是4寸。可以看到,其实无论从生态、体量、规模化上看都是硅材料占有很大的优势。但是除了这个材料技术之外,还是一个商业推动,就是我们在硅上投入的越多硅做的越好,这个材料越好工艺越成熟,做出的器件就越好,集成度越高,所以一步一步把硅推到了这个现在这个状态。现在对于硅这个半导体市场去年应该是一个将近6000亿美元的市场,而在这个市场份额下形成了一个非常庞大的生态,这个生态从软件到IP,到制作也就是晶圆加工,到材料到封装工艺,每一个环节都是非常专业化,而且是全球化的一个产业链,所以形成了一个非常良性的生态。
那什么是硅光?硅光简单说一下,就是说我们从电芯片IC角度来看的话,我们早期做的事情就是把独立的一些晶体管、电容、电阻、电感集成到这个一个硅晶圆里面或者一个硅芯片里面,所以这个事情我们不断的加强,不断把这个器件变小,成就了过去70年基于硅CMOS的发展趋势。对于光通信来说,对于光电器件来说的话,其实现在也在发生同样的事情。我们二十年前的通信系统,是很多很多独立光器件,每个都是独立封装的,这里面有激光器、调制器、探测器、分光和光纤在里面,组成电脑一样大的系统,这是一个100G的通信系统。但如今在的数据中心的通信模块,差不多也就是半个手机大小,里面就是一个电路板和两个芯片,一个是发射一个接收,甚至有可能是发射接收在一个芯片上,就是上图右侧的这个样子。这个时候为什么能做这个事情?因为我们用硅光技术把这些独立组件集成到同一个芯片里面,做的事情跟几十年前IC做的事情一模一样。……然后对于这样一个系统来说,原则上你可以把任何一个不管多复杂的光电系统,只要是硅光器件可以解决的问题都变成一个芯片级的问题。
对于硅光这个领域,发展到现在的话大概是用了30年左右的时间,我大体把这个时间分成三段,等于每十年一段,这个分法其实是我自己的分法,不是业界的分法……然后我把未来的10年也加上,所以我这个地方画了一个40年的图。
图从左边开始看的话,第一个10年从九十年代初到2000年左右,硅光的一个原始积累的状态,那个时候甚至没有硅光子这个词,那个时候是比如说我的导师Kimerling教授当时做的主要是材料的演进,怎么把硅波导材料做好,怎么把锗材料做好,这个是当时课题需要做的事情,很早期的事情,相当于说那个时候硅光本身是一个相当小众的科研领域。
硅光是一个比较巧合的机缘才出来的,在80年代末90年代初IBM作为技术研发实力很强的公司开发了各种各样的技术,其中有一个就是我们说的SOI晶圆,SOI晶圆在普通的硅晶圆之上加了一层氧化层,之后又加一层单晶的硅层。这个事情最早是想让晶体管能减少漏电流,增强性能这么一个事情,事实上这个事情目前已经做出来了,已经变成一个挺火的一个方向,但在当时那个状态下,其实这个概念出来之后没有人用。因为当时的IC还处在一个疯狂去做小型化、微型化,做scaling的一个年代,所有的精力都集中在IC的scaling,做这个新的东西没人关注的,你所谓的性能提高到下一代缩微工艺出来之后就已经超越你了,所以这个就搁置了。但是,这个东西有这么一层氧化硅在两层单晶硅中间,这个事情就很好,因为我们可以用上面一个单晶硅作为我们波导的导光材料,大家知道导光的话一定要做一个有一个高折率的介质在中间,然后有一个低折射力的介质在四周,这样才能把光给束缚住。硅作为一个高折射率的材料,肯定是这个中间的材料,那四周我们就用氧化硅包起来,这是做一个波导很自然的一个材料选择。
然后到了2000年的时候。我是2004年加入到MIT的Kimerling教授科研组开始做硅光,这个相当是我在做博士期间的这个时代。这个时候材料已经摸索出来了,开始用这些材料来做器件。这个器件上就包括各种各样的调制器件、探测器件、发光器件,这些器件逐渐从各种各样的设计开始向着大家认同的方向发展。当时其实有各种各样做这些器件的方式,就跟早期做晶体管一样,最终大家都采用这样一种方式。硅光作为一个基于CMOS的这么一个技术平台很快的吸引到了工业界的注意。在2004年左右,Intel和IBM就先后成立了硅光组,这个对一个新领域来说还是比较少见的,最开始一般都是学术界先到一定程度之后工业界才开始引入,但在硅光这个领域工业界和学术界基本上是齐头并进的状态,而且很多的好的设计其实是从工业界那边设计出来的,这个是蛮有意思的一个事情。然后在这个过程的中后期,大概在06~08年的时候开始陆续有一些硅光的初创公司出现了。当时我还没有毕业,但是我还在一家公司进行实习,这个时间点实际上是我们第一批的硅光创业的人做的事情,当然瞄准的方向大部分还是光通信的方向。这些公司要不然就上市了,要不然就最后是被大公司收购了,应该说大部分公司的出路还是不错的。
之后我们就进入到下一个10年,2010年到2020年,这个十年有一些非常巨大变化。首先就是说Foundry的工艺,尤其是偏中早期研发的Foundry,比如说IMEC我们都知道在半导体IMEC的地位,IMEC很快就跟业界一起形成了标准化的硅光流片平台。平台就是说里面的材料体系、各层厚度以及常用器件的工艺方法基本上有了规范,这规范其实也不是一步到位的,也是慢慢去细化,慢慢去标准化,直到现在其实各个foundry还有一点小区别,但是基本上已经形成一套比较一致的标准了。同时在这个过程中,我刚才说那初创公司也好或者大公司也好开始做产品,陆续有产品开始落地。标志性事件是Luxtera在2016年开始给数据中心的硅光产品进行量产,这个当时是早于磷化铟的产品做100G的数据通信产品开始进入市场,然后Intel很快也也切入进来,他们俩作为出货量最大两家,后来Luxtera这家初创公司以6.6亿美金卖给了Cisco思科,目前在光通信市场做硅光的方案最大的商家是Intel和Cisco 。等于说硅光从实验室走到了产品化落地,而且现在已经在光通信市场尤其是数据通信市场占据了很大的市场份额。这个时候很多初创公司也陆陆续续实现了退出,这里面也包括我们。
然后就是下一个时代,这当然上个时代末尾我们创立了洛微科技,之所以我们创业这个新的公司,也是发现经过这些年的发展,我们亲眼看到硅光从一个实验室的技术到了一个标准的技术平台以及产业落地的状态,形成了自己的一个小生态,当然这个小生态是依托于硅CMOS半导体大生态。这个小生态已经可以支撑很多Fabless这种商业模式,也就是我们可以像IC一样只关注设计,而这个设计就像IC里面模拟和射频芯片的设计,是从电磁波仿真开始做起,所以对设计团队的经验要求很高,但同时你又不需要像早期一样过多的关注生产、晶圆加工,可以把精力放在最擅长的地方,而且也可以减少资本的投入,所以就已经开始慢慢形成这种跟IC一样的创业状态。我们也相信同样这个事情跟IC类似,也会诞生更多的应用,硅光平台下不光只是做光通信,可以做更多的事情,事实上你可以认为所有光电系统,原则上都可以变成一个芯片化的方案,只是说是看这个方案是不是值得去投入芯片,如果这个方案每年只卖1万只那肯定是不值得,如果这个方案每年是卖几百万、几千万只 当然值得。所以未来十年我们我认为硅光会推广到各个领域,包括激光雷达,各种各样传感以及光计算。
然后下面就来具体谈一下我们公司做的一些事情,但这个谈的是比较简要的,这个这次毕竟不是主要介绍我们公司。这里面说在讲之前先跟大家去明确一些基本的事情,这个可能对看这个行业的人有一定的参考价值。激光雷达最主要的就是测一个真实3D点云数据,所以可能大家最关注的指标就是距离,这个距离当然就是跟你选择的芯片方案、芯片设计和信噪比相关的,这个当然是物理上的一些事情。但实际上,真正考虑这个的话需要考虑因素其实蛮多的,是很具体或者很需要去确定的一些东西大家可以稍微明确一点。
首先,就是被测物体的反射率。探测距离是跟被测物体的反射率是一个强相关性的事情,就是说我们看一个反射率90%的物体(比如白墙)和看一个反射率10%的物体(比如黑墙),能测试的最远距离上差数三倍,这个差距是非常大的。
其次,就是测距的概率。为什么会有概率这个事呢?按不同的方案对这个事情的解释或者说原因还不太一样。比如说单光子探测是最明显的,单光子探测具有少数光子的这个灵敏度,这个情况下,是存在泊松分布 Poisson distribution的,简单说就是会有一定的概率看不到这个光子,所以这是为什么我们看单光子探测会有一个很重要的指标叫PDP,就是探测光子的概率。在940纳米的话,可能这个概率基本是在10%左右,根本上来说是物理的原因。
除了刚才说的两点之外,激光雷达是一个系统级的产品,它有各种各样的指标是互相牵连的。这里面比较主要包括有分辨率、视场角、帧率。这些因素甚至还有其他因素互相搅在一起,所以我们在做一个距离指标的时候是离不开这几个因素,所以大家一般给指标时都是给一些典型的值,但实际上这些东西是互相关联的。
这四个颜色的方框是目前在测距方案里面最常见的几个流派,他们的原理差别非常大,无论是用功率还是用光子数来评价其实都不公平,我试图用这个图把这四个技术放在同一个图里来讲一下。X轴代表每个探测通道有效测距的点率,跟我刚才说的帧率有点关系,就说使用这个技术的时候,每个通道每秒钟能测多少个点。Y轴代表灵敏度效率,注意这不是灵敏度的概念,不是说这里面的光子数越小代表能测的距离越远。大概意思是一共用多少光子才能达到需要的测试距离,光子的多少包括改变出光功率,也包括改变测量时长,这个词在教材或是文献里没有的,之所以用这个概念就是为了方便一起评价这四个方案。x和y轴是这四个方案比较本质的因素,所以能相对比较公平的来评价一下这四个技术的特色,这里面其实没有绝对的好和坏。
首先,是dToF方案,就是直接飞行时间测量(右下角橘黄色方框)。该方案用APD就是雪崩探测器来做探测。我们现在已经在车上用的激光雷达基本都是采用这个技术。原理就是发射一个激光脉冲,然后用一个灵敏度比较高的APD来探测返回来的光,然后计算两个脉冲的时间差。它有什么好处呢?它在x轴上是最靠右的,也就是说它每通道每秒钟能测点数是最多的,因为原则上它只需要看一个脉冲返回的时间就可以了。这也是为什么现在采用这种方案的激光雷达基本上只需要用3~6个通道就可以覆盖一个每秒百万级的点密度,这个点密度适合目前很多应用,这个是现在目前采用的主流技术。但是你可以看到缺点呢?它这个灵敏度效率的这个轴上是最低的,也就是他需要用最大的光子数,在这个情况是指峰值光功率来实现测距距离。那如果这个光功率超过了人眼安全的限制,那就在测试距离上有了限制,你可以看到比如用905纳米的激光器的dToF方案能测试的最大距离大部分是在100米到150米之间(10%反射率),这个是在人眼安全限制下比较远的测试距离。但如果想测的更远,就需要把波长换到对人眼更安全的1550纳米,然后来用更大的光功率来实现更远的距离。
其次,是iToF方案,就是间接飞行时间测量(左下角绿色方框)。该方案其实就像我们手机里的CMOS摄像头一样通过积分方式来获取很高的灵敏度,虽然说并没有单光子能力,但是可以加时间,可以让这个光子一点点进来,一点点积累,积累到一定程度能探测了,再把这个数据在输出。所以其实也能达到非常高的灵敏度,也可以测非常远的距离,但是效率会比较低。另外就是说你如果想测的距离远,你就需要积分时间足够长。然后你看这个图上这个绿色的框在x轴上很长,覆盖很长一个范围就是因为如果想测的远,就要用更长的积分时间,那每秒的点就少,如果你测距离近,这样就可以提高这个数字。所以你可以看到,做这种iToF的方案的话基本都是用一个二维阵列的方式,就类似于我们图像传感器这个方式,因为每个通道需要花很长的时间,甚至是毫秒级来进行测量,那当然就是我们希望同时能采集更多的点,然后同时把这个数据输出,这个是这个技术一般使用的方式。
再次,也是dToF直接飞行时间测量,但是用的是SAPD或者SiPM。这个技术在图中是斜着放的的一个区域,因为它可以原则上达到单光子灵敏度,但是你需要等足够长的时间和重复测量次数。实际上单光子探测在科学实验上是真的可以测单光子,但实际上在我们激光雷达室外场景下应用的话,基本上也是百光子量级的脉冲,需要在合理的采集时间和灵敏度平衡下进行。单光子探测是一个灵敏度非常高的技术,但有一个缺点就是说它太灵敏了,任何一个噪声源比如说太阳光、比如说环境光、比如说电路里的噪声电子,任何一个单个的电子或者光子都可能会造成一个假信号,那这样的话测量的信号并不知道真还是假。那你怎么做呢?你就经过多次测量,比如测几百次,测几百次之后你把它作为做一个频次图,频次最高的那个峰值是最有可能是真实信号的,把这个信号作为时间对应的距离。所以虽然是用脉冲来测时间,但实际上我们需要发射和采集很多次,而这个很多次之间还需要停顿一段时间,有一个死亡时间,单光子探测材料和物理上的限制造成你不能立刻采集下一个脉冲,所以就变成单光子探测也需要花比较长的时间探测一个点,就有点接近于iToF的情况,一般也需要大规模2D阵列。但为了能在室外环境光下使用,一般需要把多个像素组合,做所谓的coincidence探测,比如4x4甚至8x8组合,这样往往把一个SPAD阵列的有效像素数减少的非常厉害,造成分辨率指标的下降。
最后,是FMCW,调频连续波相干探测(中间紫色方框)。FMCW简单来说就是通过一个本振光,就是我们把发射的光留一小部分,然后大部分是作为一个探测的光源输出了,通过物体返回来之后,跟本振光进行相干混合,是个相干探测的一个技术。我们的3G、4G手机信号里面经常做这种相干混频的事情,在光通信里面也做很多相干探测的方案,物理原理和公式都是一样的,不过这里是一个模拟信号。经过这种相干探测之后,如果我们调制这个信号的频率可以测这个两个信号之间的一个频率差,我们采集一段时间的数据,利用傅立叶变换把时域的信号变成频率的信号,对应的频率差的峰值,就能知道这个频率变化,我们就可以推出距离数据。
这个主要有两个好处:一个就说通过本振能有很大的放大这个信号,只要1mW的光去放大1pW的信号,这个放大倍数是非常高的,这个放大是相乘的关系,同时因为这个放大信号是跟距离的1次方成反比(而其他任何方案都是和距离2次方成反比),动态范围非常大。另外一个好处就是通过本振混频的这种方式可以有非常强的抗干扰性,这个我后面会说的更仔细一点。
但是,它的缺点是需要采一段时间的数据,并不说一个脉冲回来立刻可以完成测试,这个时间并不会像iToF或者像多次测量SPAD这么长,所以FMCW在x轴上的位置是介于这些方案中间的一个位置。但是因为它需要时间,它也需要更多的通道数才能完成需要点云数,所以它一定是一个多通道的方案。应该说不会是dToF一样3~6个通道的问题,但也不至于都要320*240这种2D阵列,应该是一个10~100级别的通道数方案。
对于FMCW,刚才我已经讲过了从原理上看就是利用随时间变化的频率,然后通过反射回来的波跟本地的这个波的频率差,通过三角波调制的计算可以得到两个方程,可以得到跟距离成正比的傅里叶变换图,同时可以得到跟速度成正比的傅里叶变换图。如果你有多个物体,还可以读到多个峰值,你可测的多个物体,比如说有半透明的物体作为第一次反光,后面还有一个不透明的物体作为第二次反光,你可以测两个峰值。
然后说一下我们为什么做FMCW。然后我刚才提到我们会着眼于一个比较长的时间,因为我们认为这个赛道不是一个3、5年的事情,这是一个非常长、非常宽的一个赛道,长是指应用的时间比较长,宽是指应用的方向比较多,因为我们相信这个3D传感未来会像摄像头一样到处都是。那你如果把眼光放这么长去看的话,你想的就是一个能走到最后的方案,那最后方案我们会需要什么呢?测试距离实际上各个方案努力一下都有可能达到一个比较远的距离,比如使用1550nm的激光,做脉冲ToF也可以达到一个200米以上甚至更远的距离。但姑且不提1550nm脉冲光纤激光器的成本问题,除了成本之外我们也可以看到FMCW的一些好处。
如果你认为激光雷达是一个很长远的赛道,未来会是到处都是,路上的各种车甚至设施都会有激光雷达,作为智能驾驶V2X的补充,这样的话会有很多激光雷达互照,那互扰会是一个比较大的问题。当然ToF是可以用编码的方式做一些抗干扰,但是如果做编码就意味着在时间上做一些采样,那又回到了刚才的问题上,本来ToF是一个单点测试时间很短的技术,你加上编码把时间拉长了,那你是不是需要更多的通道呢?那么APD怎么解决多通道的问题呢?现在是3个通道、6个通道,那怎么解决30个通道、60个通道的问题呢?扫描的方案是不是也要跟着变?这就是一个很有挑战的事情。
但是FMCW用的是一个很窄频的激光器,这个频率是在100kHz量级,如果你换算一下的话是在百万分之一纳米这么窄的一个光谱上,然后这个光谱自己激光器跟自己做混频,而这个混频的优势就是其他跟这个频率不吻合的频率信号会过滤掉。也就是说可能发生同频的情况在百万分之一纳米这个范围之内,这产生互扰的概率非常低。对于阳光也是一样,阳光虽然是一个广光的光,但是在百万分之一纳米能够进来的光非常少,FMCW是唯一一个可以对着太阳照而不饱和的激光雷达方案。
另外就是左边这个图,想说的是速度直测这个事情。我和很多自动驾驶感知团队有比较多的交流,他们今年拿到了国外某FMCW激光雷达的样机,然后在测试过程中发现速度场真的是很好的一个东西,在很多corner case能够提供很好的判断依据。我们看左边这个图,车和人如果距离比较近,用3D深度图是很难做语义分割,但是如果看速度场,车和人的速度相差非常大,可以直接把两个物体分割出来,占用很小的数据量的数据维度就可以获得非常巨大的好处。
另外一个芯片可以实现的事情就是纯固态扫描。无论成本上来说还是可靠性来说,大家都希望最后的方案一定是一个纯固态的方案。无论是早期的360°机械旋转的方案,还是目前已经上车的半固态方案,大家都认为是一个过渡的方案。过渡的时间可长可短,最终一定要实现一个纯固态的方案。纯固态方案用芯片来实现是一个必然的一个事情。
芯片的纯固态扫描大体有下面三种方式:第一种就是OPA就是相控阵的方式,相控阵其实在无线电通信里面使用很多年来了,就是靠天线阵列之间互相干涉进行远场的光斑扫描。第二种就是Focal Plane Array,基本上就是把像素反过来用,是一个不同角度的光作为发光源,发射出去形成不同角度的发射和照射。第三种就是一个用波长来进行扫描,这个在学术界比较常用,有一些做产品的人也考虑用这个,这个就是用波长和芯片的Dispersion色散的功能,不同的波长通过芯片到达不同的方向,这个和棱镜的道理差不多,分光的一个道理,然后实现不同角度的扫描。这些方案各有利弊,没有一个方案是有完全的优势的,这就涉及到系统参数的选择和应用场景的配合。
简单来说对于OPA来说扫描的角分辨和灵活性非常强,随时可以扫描任何角度,任何顺序,任何的点,可以达到很高的角分辨率,只要阵列做的足够大,但是它的缺点就是有旁瓣的干扰,这个地方需要做特殊的处理。刚才说的虽然可以达到很高的分辨率,但是达到很高的分辨率需要做一些牺牲,你的芯片天线数会增多,芯片会变得更复杂,功耗会提高,控制会更复杂。
对于Focal Plane Array,实现起来比较简单,就是不同通道而已,但是它的损耗较大,因为要进行分光,每个光就会变小,同时点亮很多像素的话就会有问题,角度是固定的,这个设计好角度就不能随时调了。
第三个波长扫描这个事情,控制会比较简单,波长一改变方向就跟着改变,感觉概念很简单,但是Dispersion色散不是一个很强的效应,需要一个很宽的光谱的范围才可以调一个比较大的角度范围,而很宽谱可调的激光器的难度和成本是比较高的,这是一个比较主要的限制。
最后就简单说一下洛微科技做的事情。我们做一个大规模集成的基于CMOS硅光的芯片。里面我们集成了多组通道的FMCW,也集成了很多其他的功能,包括天线、相控阵以及各种各样光学上的功能。这是一个集成光学的SoC系统级芯片。我们把光芯片和电芯片封装在一个芯片里面,我们叫光引擎,是一个SiP的封装。实现完整的固态扫描和FMCW探测,形成我们产品的一部分,最终加上其他部分会变成一个完整的激光雷达产品。
(以上为演讲全部内容)
上一条:2021年慕尼黑上海光博会